ChatPaper.aiChatPaper

Revisitando la Generalización a Través de Niveles de Dificultad: No Es Tan Sencillo

Revisiting Generalization Across Difficulty Levels: It's Not So Easy

November 26, 2025
Autores: Yeganeh Kordi, Nihal V. Nayak, Max Zuo, Ilana Nguyen, Stephen H. Bach
cs.AI

Resumen

Investigamos la capacidad de generalización de los grandes modelos de lenguaje (LLM) a través de diferentes niveles de dificultad de tareas, una cuestión clave para una curación y evaluación de datos efectiva. La investigación existente presenta resultados contradictorios sobre si el entrenamiento con datos más fáciles o más difíciles produce mejores resultados, y si esas mejoras se manifiestan en datos de prueba fáciles o difíciles. Abordamos esta cuestión mediante una evaluación sistemática de la generalización de los LLM a través de modelos, conjuntos de datos y grupos detallados de ejemplos según su dificultad. Clasificamos ejemplos en seis conjuntos de datos utilizando las salidas de miles de LLM diferentes y la Teoría de Respuesta al Ítem (TRI), una métrica de dificultad bien establecida en la evaluación educativa. A diferencia de trabajos anteriores, nuestras clasificaciones de dificultad se determinan, por tanto, únicamente por las capacidades de muchos LLM diferentes, excluyendo las opiniones humanas sobre la dificultad. Con un análisis más objetivo, a mayor escala y más granular, demostramos que la generalización cruzada por dificultad a menudo es limitada; el entrenamiento con datos fáciles o difíciles no logra mejoras consistentes en todo el espectro de dificultades. Estos resultados muestran la importancia de incluir un rango de dificultades tanto en los datos de entrenamiento como en los de evaluación para los LLM, y que tomar atajos con respecto a la dificultad es arriesgado.
English
We investigate how well large language models (LLMs) generalize across different task difficulties, a key question for effective data curation and evaluation. Existing research is mixed regarding whether training on easier or harder data leads to better results, and whether those gains come on easier or harder test data. We address this question by conducting a systematic evaluation of LLMs' generalization across models, datasets, and fine-grained groups of example difficulty. We rank examples in six datasets using the outputs of thousands of different LLMs and Item Response Theory (IRT), a well-established difficulty metric in educational testing. Unlike prior work, our difficulty ratings are therefore determined solely by the abilities of many different LLMs, excluding human opinions of difficulty. With a more objective, larger-scale, and finer-grained analysis, we show that cross-difficulty generalization is often limited; training on either easy or hard data cannot achieve consistent improvements across the full range of difficulties. These results show the importance of having a range of difficulties in both training and evaluation data for LLMs, and that taking shortcuts with respect to difficulty is risky.
PDF152December 1, 2025