I modelli linguistici di grandi dimensioni possono stimare le difficoltà degli studenti? Allineamento Umano-IA delle difficoltà con simulazione della competenza per la previsione della difficoltà degli item
Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction
December 21, 2025
Autori: Ming Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou
cs.AI
Abstract
La stima accurata della difficoltà degli item (domande o compiti) è fondamentale per la valutazione educativa, ma soffre del problema del cold start. Sebbene i Large Language Model dimostrino capacità di problem solving sovrumane, rimane una questione aperta se essi possano percepire le difficoltà cognitive degli studenti umani. In questo lavoro, presentiamo un'analisi empirica su larga scala dell'Allineamento della Difficoltà Uomo-IA per oltre 20 modelli in domini diversificati come la conoscenza medica e il ragionamento matematico. I nostri risultati rivelano un disallineamento sistematico in cui l'aumento della dimensione del modello non è affidabilmente d'aiuto; invece di allinearsi con gli umani, i modelli convergono verso un consenso macchina condiviso. Osserviamo che l'alta performance spesso ostacola una stima accurata della difficoltà, poiché i modelli faticano a simulare i limiti di capacità degli studenti anche quando vengono esplicitamente invitati ad adottare specifici livelli di competenza. Inoltre, identifichiamo una critica mancanza di introspezione, poiché i modelli non riescono a prevedere i propri limiti. Questi risultati suggeriscono che la capacità generale di problem solving non implica una comprensione delle difficoltà cognitive umane, evidenziando la sfida nell'utilizzare i modelli attuali per la previsione automatizzata della difficoltà.
English
Accurate estimation of item (question or task) difficulty is critical for educational assessment but suffers from the cold start problem. While Large Language Models demonstrate superhuman problem-solving capabilities, it remains an open question whether they can perceive the cognitive struggles of human learners. In this work, we present a large-scale empirical analysis of Human-AI Difficulty Alignment for over 20 models across diverse domains such as medical knowledge and mathematical reasoning. Our findings reveal a systematic misalignment where scaling up model size is not reliably helpful; instead of aligning with humans, models converge toward a shared machine consensus. We observe that high performance often impedes accurate difficulty estimation, as models struggle to simulate the capability limitations of students even when being explicitly prompted to adopt specific proficiency levels. Furthermore, we identify a critical lack of introspection, as models fail to predict their own limitations. These results suggest that general problem-solving capability does not imply an understanding of human cognitive struggles, highlighting the challenge of using current models for automated difficulty prediction.