ChatPaper.aiChatPaper

Können LLMs Schülerprobleme einschätzen? Abgleich menschlicher und KI-basierter Schwierigkeitsbewertung durch Kompetenzsimulation zur Vorhersage von Aufgaben

Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

December 21, 2025
papers.authors: Ming Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou
cs.AI

papers.abstract

Eine genaue Schätzung der Item-Schwierigkeit (von Fragen oder Aufgaben) ist für die Bildungsbewertung von entscheidender Bedeutung, leidet jedoch unter dem Cold-Start-Problem. Während Large Language Models übermenschliche Fähigkeiten zur Problemlösung demonstrieren, bleibt die Frage offen, ob sie die kognitiven Schwierigkeiten menschlicher Lernender wahrnehmen können. In dieser Arbeit präsentieren wir eine groß angelegte empirische Analyse der Mensch-KI-Schwierigkeitsabstimmung für über 20 Modelle in verschiedenen Domänen wie medizinischem Wissen und mathematischem Denken. Unsere Ergebnisse zeigen eine systematische Fehlausrichtung, bei der eine Vergrößerung der Modellgröße nicht zuverlässig hilfreich ist; anstatt sich mit Menschen abzustimmen, konvergieren Modelle zu einem gemeinsamen Maschinenkonsens. Wir beobachten, dass hohe Leistungsfähigkeit oft eine genaue Schwierigkeitsschätzung behindert, da Modelle Schwierigkeiten haben, die Fähigkeitsgrenzen von Studierenden zu simulieren, selbst wenn sie ausdrücklich aufgefordert werden, bestimmte Kompetenzniveaus einzunehmen. Darüber hinaus stellen wir einen kritischen Mangel an Introspektion fest, da Modelle nicht in der Lage sind, ihre eigenen Grenzen vorherzusagen. Diese Ergebnisse deuten darauf hin, dass allgemeine Problemlösungsfähigkeit kein Verständnis für menschliche kognitive Schwierigkeiten impliziert, was die Herausforderung bei der Verwendung aktueller Modelle für die automatische Schwierigkeitsvorhersage unterstreicht.
English
Accurate estimation of item (question or task) difficulty is critical for educational assessment but suffers from the cold start problem. While Large Language Models demonstrate superhuman problem-solving capabilities, it remains an open question whether they can perceive the cognitive struggles of human learners. In this work, we present a large-scale empirical analysis of Human-AI Difficulty Alignment for over 20 models across diverse domains such as medical knowledge and mathematical reasoning. Our findings reveal a systematic misalignment where scaling up model size is not reliably helpful; instead of aligning with humans, models converge toward a shared machine consensus. We observe that high performance often impedes accurate difficulty estimation, as models struggle to simulate the capability limitations of students even when being explicitly prompted to adopt specific proficiency levels. Furthermore, we identify a critical lack of introspection, as models fail to predict their own limitations. These results suggest that general problem-solving capability does not imply an understanding of human cognitive struggles, highlighting the challenge of using current models for automated difficulty prediction.
PDF212December 24, 2025