Les LLM peuvent-ils estimer les difficultés des étudiants ? Alignement humain-IA sur la difficulté par simulation de compétence pour la prédiction de la difficulté des items
Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
December 21, 2025
papers.authors: Ming Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou
cs.AI
papers.abstract
L'estimation précise de la difficulté des items (questions ou tâches) est cruciale pour l'évaluation éducative, mais elle souffre du problème du démarrage à froid. Bien que les modèles de langage à grande échelle démontrent des capacités de résolution de problèmes surhumaines, la question de savoir s'ils peuvent percevoir les difficultés cognitives des apprenants humains reste ouverte. Dans ce travail, nous présentons une analyse empirique à grande échelle de l'Alignement des Difficultés Humain-IA pour plus de 20 modèles, dans des domaines variés tels que les connaissances médicales et le raisonnement mathématique. Nos résultats révèlent un désalignement systématique où l'augmentation de la taille des modèles n'est pas une solution fiable ; au lieu de s'aligner sur les humains, les modèles convergent vers un consensus machine partagé. Nous observons que des performances élevées entravent souvent l'estimation précise de la difficulté, car les modèles peinent à simuler les limitations de capacités des étudiants, même lorsqu'ils sont explicitement invités à adopter des niveaux de compétence spécifiques. De plus, nous identifions un manque critique d'introspection, les modèles échouant à prédire leurs propres limites. Ces résultats suggèrent que la capacité générale de résolution de problèmes n'implique pas une compréhension des difficultés cognitives humaines, soulignant le défi que représente l'utilisation des modèles actuels pour la prédiction automatisée de la difficulté.
English
Accurate estimation of item (question or task) difficulty is critical for educational assessment but suffers from the cold start problem. While Large Language Models demonstrate superhuman problem-solving capabilities, it remains an open question whether they can perceive the cognitive struggles of human learners. In this work, we present a large-scale empirical analysis of Human-AI Difficulty Alignment for over 20 models across diverse domains such as medical knowledge and mathematical reasoning. Our findings reveal a systematic misalignment where scaling up model size is not reliably helpful; instead of aligning with humans, models converge toward a shared machine consensus. We observe that high performance often impedes accurate difficulty estimation, as models struggle to simulate the capability limitations of students even when being explicitly prompted to adopt specific proficiency levels. Furthermore, we identify a critical lack of introspection, as models fail to predict their own limitations. These results suggest that general problem-solving capability does not imply an understanding of human cognitive struggles, highlighting the challenge of using current models for automated difficulty prediction.