LLMは学生の苦戦を推定できるか?項目難易度予測のための習熟度シミュレーションに基づく人間-AI難易度調整
Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
December 21, 2025
著者: Ming Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou
cs.AI
要旨
項目(問題や課題)の難易度を正確に推定することは教育評価において極めて重要であるが、コールドスタート問題に悩まされている。大規模言語モデルは超人的な問題解決能力を示す一方で、人間の学習者の認知的苦闘を感知できるかどうかは未解決の問題である。本研究では、医学知識や数学的推論など多様な領域にわたる20以上のモデルを対象に、人間とAIの難易度認識一致に関する大規模な実証分析を行う。我々の知見は、モデル規模の拡大が必ずしも有効ではなく、人間との一致ではなく機械間の共通認識へ収束するという系統的な不一致を明らかにする。高い性能が正確な難易度推定を妨げる傾向が観察され、特定の習熟度を想定するよう明示的に促されても、モデルは生徒の能力限界をシミュレートすることに苦戦する。さらに、モデルが自身の限界を予測できないという内省能力の重大な欠如を確認する。これらの結果は、一般的な問題解決能力が人間の認知的苦闘の理解を意味しないことを示唆し、現行のモデルを用いた自動難易度予測の課題を浮き彫りにする。
English
Accurate estimation of item (question or task) difficulty is critical for educational assessment but suffers from the cold start problem. While Large Language Models demonstrate superhuman problem-solving capabilities, it remains an open question whether they can perceive the cognitive struggles of human learners. In this work, we present a large-scale empirical analysis of Human-AI Difficulty Alignment for over 20 models across diverse domains such as medical knowledge and mathematical reasoning. Our findings reveal a systematic misalignment where scaling up model size is not reliably helpful; instead of aligning with humans, models converge toward a shared machine consensus. We observe that high performance often impedes accurate difficulty estimation, as models struggle to simulate the capability limitations of students even when being explicitly prompted to adopt specific proficiency levels. Furthermore, we identify a critical lack of introspection, as models fail to predict their own limitations. These results suggest that general problem-solving capability does not imply an understanding of human cognitive struggles, highlighting the challenge of using current models for automated difficulty prediction.