Bienvenue ! Je regroupe ici des ressources liées à mon sujet de thèse :
Conception et analyse de tests adaptatifs dans un cadre de crowdsourcing.
Vous pouvez accéder à ma bibliographie (en anglais) ou jouer avec mes scripts.
Un test d’évaluation de compétences est usuellement composé d’une série de questions, chacune permettant d’évaluer un candidat sur un ou plusieurs aspects. Si on souhaite connaître le niveau du candidat dans un test, il faut poser des questions de difficulté variable, pour savoir jusqu’où le candidat est capable d’aller.
Lors d’une interrogation orale, par exemple dans une colle de classe préparatoire ou pendant un entretien d’embauche, l’examinateur dose la difficulté de sa question suivante en fonction de la performance du candidat à ses questions précédentes. C’est un moyen plus rapide et personnalisé d’évaluer le niveau d’un candidat.
C’est l’intuition qui se cache derrière le concept de test adaptatif : à partir des réponses précédentes d’un candidat, on choisit la question suivante qui va lui être posée. Cette approche, basée sur l’apprentissage actif (active learning), peut profiter de la mine de données que représente l’historique des réponses d’un test, pour obtenir une bonne précision sur le niveau d’un candidat en peu de questions. On parle alors de crowdsourcing, car c’est l’utilisation de données issues d’une multitude de personnes qui permet de réaliser cette tâche.
Dans tout ce qui suivra, les questions des tests proposés seront à choix multiples (QCM) : cette spécification rend l’analyse des réponses plus facile (par exemple, elle évite le recours à l’analyse du langage naturel), et même si dans certains cas les réponses proposées sont telles qu’on peut deviner la bonne sans même lire la question, si chaque réponse proposée correspond à un piège fréquent, une réponse fausse choisie par un candidat peut constituer une source d’information supplémentaire.
On considère un ensemble de catégories sur lesquelles le candidat va être évalué ainsi qu’un ensemble de questions ayant chacune sa difficulté (d’abord déterminée a priori par l’examinateur, elle sera amenée à être recalibrée au vu des résultats du test) et les catégories auxquelles elle se rattache. Je souhaite exploiter l’utilisation de tests adaptatifs pour obtenir en un certain nombre de questions le plus d’informations possible sur le niveau d’un candidat sur chacune des catégories, de manière à lui fournir un retour personnalisé.
Un tel système nécessite que l’on vérifie que le résultat d’un candidat à un test adaptatif soit proche de celui qu’il obtiendrait en passant toutes les questions. Il soulève également d’autres questions : que faire des personnes atypiques répondant juste aux questions difficiles et se trompant sur des questions simples ? Dans l’éventualité où on ajouterait une question inédite à un test existant, quel compromis exploration-exploitation faire pour obtenir des statistiques sur cette question tout en évaluant le candidat ?
Le caractère économique en nombre de questions et personnalisé d’un test adaptatif convient notamment aux tests de positionnement, car ces tests n’ont pas besoin d’être impartiaux mais doivent explorer au mieux les connaissances d’un candidat. Cela permet alternativement à un candidat de savoir ce qu’il pourra trouver dans un cours et à l’enseignant de ce cours de connaître le niveau de sa vaste classe.
Ce problème peut s’apparenter à un problème d’apprentissage non supervisé : on cherche à rapprocher un candidat des autres de la base de données, à partir de ses réponses. On peut comparer cela avec les tests de langue en début d’année qui permettent de partitionner une classe en groupes d’élèves de même niveau.
Le système pourra également adapter les questions qu’il choisit en fonction de métadonnées dont il dispose (par exemple, données démographiques sur l’utilisateur).