ChatPaper.aiChatPaper

Kunnen LLM's Studentenmoeilijkheden Inschatten? Afstemming tussen Mens en AI over Moeilijkheidsgraad met Vaardigheidssimulatie voor het Voorspellen van Itemmoeilijkheid

Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

December 21, 2025
Auteurs: Ming Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou
cs.AI

Samenvatting

Nauwkeurige inschatting van de moeilijkheidsgraad van items (vragen of taken) is cruciaal voor onderwijsassessment, maar lijdt onder het 'cold start'-probleem. Hoewel grote taalmodellen bovenmenselijke probleemoplossende vermogens demonstreren, blijft het een open vraag of ze de cognitieve worsteling van menselijke leerders kunnen waarnemen. In dit werk presenteren we een grootschalige empirische analyse van Human-AI Moeilijkheidsafstemming voor meer dan 20 modellen binnen diverse domeinen zoals medische kennis en wiskundig redeneren. Onze bevindingen onthullen een systematische misalignering waarbij opschaling van modelgrootte niet betrouwbaar helpt; in plaats van af te stemmen op mensen, convergeren modellen naar een gedeelde machineconsensus. We observeren dat hoge prestaties vaak een accurate moeilijkheidsinschatting belemmeren, aangezien modellen moeite hebben om de beperkingen in het kunnen van studenten te simuleren, zelfs wanneer ze expliciet worden aangezet om specifieke vaardigheidsniveaus aan te nemen. Verder identificeren we een kritisch gebrek aan introspectie, aangezien modellen niet in staat zijn hun eigen beperkingen te voorspellen. Deze resultaten suggereren dat algemeen probleemoplossend vermogen geen begrip van menselijke cognitieve worstelingen impliceert, wat de uitdaging benadrukt van het gebruik van huidige modellen voor geautomatiseerde moeilijkheidsvoorspelling.
English
Accurate estimation of item (question or task) difficulty is critical for educational assessment but suffers from the cold start problem. While Large Language Models demonstrate superhuman problem-solving capabilities, it remains an open question whether they can perceive the cognitive struggles of human learners. In this work, we present a large-scale empirical analysis of Human-AI Difficulty Alignment for over 20 models across diverse domains such as medical knowledge and mathematical reasoning. Our findings reveal a systematic misalignment where scaling up model size is not reliably helpful; instead of aligning with humans, models converge toward a shared machine consensus. We observe that high performance often impedes accurate difficulty estimation, as models struggle to simulate the capability limitations of students even when being explicitly prompted to adopt specific proficiency levels. Furthermore, we identify a critical lack of introspection, as models fail to predict their own limitations. These results suggest that general problem-solving capability does not imply an understanding of human cognitive struggles, highlighting the challenge of using current models for automated difficulty prediction.
PDF212December 24, 2025