Os LLMs Podem Estimar as Dificuldades dos Estudantes? Alinhamento Humano-IA de Dificuldade com Simulação de Proficiência para Previsão da Dificuldade de Itens

Resumo

A estimação precisa da dificuldade de itens (questões ou tarefas) é crucial para a avaliação educacional, mas sofre com o problema do início frio. Embora os Grandes Modelos de Linguagem demonstrem capacidades de resolução de problemas sobre-humanas, permanece uma questão em aberto se eles podem perceber as dificuldades cognitivas dos aprendizes humanos. Neste trabalho, apresentamos uma análise empírica em larga escala do Alinhamento de Dificuldade Humano-IA para mais de 20 modelos em domínios diversos, como conhecimento médico e raciocínio matemático. Nossos achados revelam um desalinhamento sistemático no qual aumentar a escala do modelo não é de forma confiável útil; em vez de se alinharem com os humanos, os modelos convergem para um consenso maquínico compartilhado. Observamos que o alto desempenho frequentemente impede uma estimativa precisa da dificuldade, pois os modelos lutam para simular as limitações de capacidade dos alunos, mesmo quando explicitamente instruídos a adotar níveis de proficiência específicos. Além disso, identificamos uma falta crítica de introspecção, uma vez que os modelos falham em prever suas próprias limitações. Estes resultados sugerem que a capacidade geral de resolução de problemas não implica uma compreensão das dificuldades cognitivas humanas, destacando o desafio de usar os modelos atuais para a previsão automatizada de dificuldade.

English

Accurate estimation of item (question or task) difficulty is critical for educational assessment but suffers from the cold start problem. While Large Language Models demonstrate superhuman problem-solving capabilities, it remains an open question whether they can perceive the cognitive struggles of human learners. In this work, we present a large-scale empirical analysis of Human-AI Difficulty Alignment for over 20 models across diverse domains such as medical knowledge and mathematical reasoning. Our findings reveal a systematic misalignment where scaling up model size is not reliably helpful; instead of aligning with humans, models converge toward a shared machine consensus. We observe that high performance often impedes accurate difficulty estimation, as models struggle to simulate the capability limitations of students even when being explicitly prompted to adopt specific proficiency levels. Furthermore, we identify a critical lack of introspection, as models fail to predict their own limitations. These results suggest that general problem-solving capability does not imply an understanding of human cognitive struggles, highlighting the challenge of using current models for automated difficulty prediction.

Os LLMs Podem Estimar as Dificuldades dos Estudantes? Alinhamento Humano-IA de Dificuldade com Simulação de Proficiência para Previsão da Dificuldade de Itens

Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

Resumo

Support