Neubewertung der Verallgemeinerung über Schwierigkeitsgrade hinweg: Es ist nicht so einfach
Revisiting Generalization Across Difficulty Levels: It's Not So Easy
November 26, 2025
papers.authors: Yeganeh Kordi, Nihal V. Nayak, Max Zuo, Ilana Nguyen, Stephen H. Bach
cs.AI
papers.abstract
Wir untersuchen, wie gut große Sprachmodelle (LLMs) über verschiedene Aufgabenschwierigkeitsgrade hinweg generalisieren – eine Schlüsselfrage für effektives Datencurating und Evaluation. Die bisherige Forschung liefert uneinheitliche Ergebnisse darüber, ob das Training mit einfacheren oder schwierigeren Daten zu besseren Ergebnissen führt und ob diese Verbesserungen bei einfacheren oder schwierigeren Testdaten auftreten. Wir gehen dieser Frage nach, indem wir eine systematische Evaluation der Generalisierung von LLMs über Modelle, Datensätze und fein abgestufte Gruppen von Beispielschwierigkeiten hinweg durchführen. Wir ordnen Beispiele aus sechs Datensätzen anhand der Ausgaben Tausender verschiedener LLMs und der Item-Response-Theorie (IRT), einer etablierten Metrik für Schwierigkeit im Bildungstestwesen. Im Gegensatz zu früheren Arbeiten werden unsere Schwierigkeitsbewertungen somit ausschließlich anhand der Fähigkeiten vieler verschiedener LLMs bestimmt, wodurch menschliche Einschätzungen der Schwierigkeit ausgeschlossen werden. Durch eine objektivere, umfangreichere und feiner abgestufte Analyse zeigen wir, dass die Generalisierung über Schwierigkeitsgrade hinweg oft begrenzt ist; Training mit entweder einfachen oder schwierigen Daten führt nicht zu konsistenten Verbesserungen über das gesamte Schwierigkeitsspektrum. Diese Ergebnisse verdeutlichen die Bedeutung einer Bandbreite an Schwierigkeitsgraden sowohl in Trainings- als auch in Evaluationsdaten für LLMs und dass Abkürzungen in Bezug auf die Schwierigkeit riskant sind.
English
We investigate how well large language models (LLMs) generalize across different task difficulties, a key question for effective data curation and evaluation. Existing research is mixed regarding whether training on easier or harder data leads to better results, and whether those gains come on easier or harder test data. We address this question by conducting a systematic evaluation of LLMs' generalization across models, datasets, and fine-grained groups of example difficulty. We rank examples in six datasets using the outputs of thousands of different LLMs and Item Response Theory (IRT), a well-established difficulty metric in educational testing. Unlike prior work, our difficulty ratings are therefore determined solely by the abilities of many different LLMs, excluding human opinions of difficulty. With a more objective, larger-scale, and finer-grained analysis, we show that cross-difficulty generalization is often limited; training on either easy or hard data cannot achieve consistent improvements across the full range of difficulties. These results show the importance of having a range of difficulties in both training and evaluation data for LLMs, and that taking shortcuts with respect to difficulty is risky.