LLM은 학생의 어려움을 예측할 수 있을까? 문항 난이도 예측을 위한 숙련도 시뮬레이션 기반 인간-AI 난이도 정렬
Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
December 21, 2025
저자: Ming Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou
cs.AI
초록
문항(질문 또는 과제) 난이도의 정확한 추정은 교육 평가에 있어 핵심적이지만, 콜드 스타트 문제로 어려움을 겪고 있습니다. 대규모 언어 모델이 인간을 초월한 문제 해결 능력을 보여주지만, 이러한 모델이 인간 학습자의 인지적 어려움을 인지할 수 있는지 여부는 여전히 해결되지 않은 과제입니다. 본 연구에서는 의학 지식 및 수학적 추론과 같은 다양한 영역에 걸쳐 20개 이상의 모델을 대상으로 인간-AI 난이도 정합성에 대한 대규모 실증 분석을 제시합니다. 연구 결과, 모델 규모 확장이 신뢰할 만한 도움이 되지 않는 체계적인 정합 실패를 확인했습니다. 모델들은 인간과 정합하기보다는 오히려 공유된 기계적 합의로 수렴하는 경향을 보였습니다. 높은 성능은 종종 정확한 난이도 추정을 방해하는 것으로 관찰되었으며, 이는 모델들이 특정 숙련도 수준을 채택하도록 명시적으로 지시를 받은 경우에도 학생들의 능력 한계를 시뮬레이션하는 데 어려움을 겪기 때문입니다. 더 나아가, 모델들이 자신의 한계를 예측하지 못하는 중요한 내성 부족 현상을 확인했습니다. 이러한 결과는 일반적인 문제 해결 능력이 인간의 인지적 어려움에 대한 이해를 의미하지는 않음을 시사하며, 현재 모델을 자동 난이도 예측에 활용하는 데 따른 과제를 부각시킵니다.
English
Accurate estimation of item (question or task) difficulty is critical for educational assessment but suffers from the cold start problem. While Large Language Models demonstrate superhuman problem-solving capabilities, it remains an open question whether they can perceive the cognitive struggles of human learners. In this work, we present a large-scale empirical analysis of Human-AI Difficulty Alignment for over 20 models across diverse domains such as medical knowledge and mathematical reasoning. Our findings reveal a systematic misalignment where scaling up model size is not reliably helpful; instead of aligning with humans, models converge toward a shared machine consensus. We observe that high performance often impedes accurate difficulty estimation, as models struggle to simulate the capability limitations of students even when being explicitly prompted to adopt specific proficiency levels. Furthermore, we identify a critical lack of introspection, as models fail to predict their own limitations. These results suggest that general problem-solving capability does not imply an understanding of human cognitive struggles, highlighting the challenge of using current models for automated difficulty prediction.