ChatPaper.aiChatPaper

¿Pueden los LLM estimar las dificultades de los estudiantes? Alineación de la dificultad Humano-IA con simulación de competencia para la predicción de la dificultad de ítems

Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

December 21, 2025
Autores: Ming Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou
cs.AI

Resumen

La estimación precisa de la dificultad de los ítems (preguntas o tareas) es fundamental para la evaluación educativa, pero sufre del problema del inicio en frío. Si bien los Modelos de Lenguaje a Gran Escala demuestran capacidades de resolución de problemas sobrehumanas, sigue siendo una cuestión abierta si pueden percibir las dificultades cognitivas de los estudiantes humanos. En este trabajo, presentamos un análisis empírico a gran escala de la Alineación de la Dificultad Humano-IA para más de 20 modelos en diversos dominios como el conocimiento médico y el razonamiento matemático. Nuestros hallazgos revelan una desalineación sistemática en la que el escalado del tamaño del modelo no es de ayuda fiable; en lugar de alinearse con los humanos, los modelos convergen hacia un consenso maquínico compartido. Observamos que el alto rendimiento a menudo impide una estimación precisa de la dificultad, ya que los modelos luchan por simular las limitaciones de capacidad de los estudiantes incluso cuando se les indica explícitamente que adopten niveles de competencia específicos. Además, identificamos una falta crítica de introspección, ya que los modelos no logran predecir sus propias limitaciones. Estos resultados sugieren que la capacidad general de resolución de problemas no implica una comprensión de las dificultades cognitivas humanas, destacando el desafío de utilizar los modelos actuales para la predicción automatizada de la dificultad.
English
Accurate estimation of item (question or task) difficulty is critical for educational assessment but suffers from the cold start problem. While Large Language Models demonstrate superhuman problem-solving capabilities, it remains an open question whether they can perceive the cognitive struggles of human learners. In this work, we present a large-scale empirical analysis of Human-AI Difficulty Alignment for over 20 models across diverse domains such as medical knowledge and mathematical reasoning. Our findings reveal a systematic misalignment where scaling up model size is not reliably helpful; instead of aligning with humans, models converge toward a shared machine consensus. We observe that high performance often impedes accurate difficulty estimation, as models struggle to simulate the capability limitations of students even when being explicitly prompted to adopt specific proficiency levels. Furthermore, we identify a critical lack of introspection, as models fail to predict their own limitations. These results suggest that general problem-solving capability does not imply an understanding of human cognitive struggles, highlighting the challenge of using current models for automated difficulty prediction.
PDF212December 24, 2025