Могут ли языковые модели оценить трудности учащихся? Согласование человеческого и искусственного интеллекта в оценке сложности с помощью симуляции уровня владения для прогнозирования трудности заданий
Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
December 21, 2025
Авторы: Ming Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou
cs.AI
Аннотация
Точная оценка сложности заданий (вопросов или задач) имеет ключевое значение для образовательного тестирования, однако страдает от проблемы "холодного старта". Хотя большие языковые модели демонстрируют сверхчеловеческие способности к решению задач, остается открытым вопрос, могут ли они воспринимать когнитивные трудности учащихся-людей. В данной работе представлен масштабный эмпирический анализ согласованности оценок сложности между человеком и ИИ для более чем 20 моделей в различных областях, таких как медицинские знания и математические рассуждения. Наши результаты выявляют систематическое рассогласование: увеличение размера модели не приводит к надежному улучшению; вместо сближения с человеческими оценками модели сходятся к общему "машинному консенсусу". Мы наблюдаем, что высокая производительность моделей часто препятствует точной оценке сложности, поскольку модели не могут адекватно симулировать ограниченные возможности учащихся даже при явных указаниях адаптироваться к конкретным уровням подготовки. Кроме того, мы выявляем критическое отсутствие интроспекции — модели не способны предсказать собственные ограничения. Эти результаты свидетельствуют, что общая способность решать задачи не подразумевает понимания человеческих когнитивных трудностей, что подчеркивает сложность использования современных моделей для автоматического прогнозирования сложности.
English
Accurate estimation of item (question or task) difficulty is critical for educational assessment but suffers from the cold start problem. While Large Language Models demonstrate superhuman problem-solving capabilities, it remains an open question whether they can perceive the cognitive struggles of human learners. In this work, we present a large-scale empirical analysis of Human-AI Difficulty Alignment for over 20 models across diverse domains such as medical knowledge and mathematical reasoning. Our findings reveal a systematic misalignment where scaling up model size is not reliably helpful; instead of aligning with humans, models converge toward a shared machine consensus. We observe that high performance often impedes accurate difficulty estimation, as models struggle to simulate the capability limitations of students even when being explicitly prompted to adopt specific proficiency levels. Furthermore, we identify a critical lack of introspection, as models fail to predict their own limitations. These results suggest that general problem-solving capability does not imply an understanding of human cognitive struggles, highlighting the challenge of using current models for automated difficulty prediction.