難易度レベル間の一般化の再検討:思った以上に困難な課題
Revisiting Generalization Across Difficulty Levels: It's Not So Easy
November 26, 2025
著者: Yeganeh Kordi, Nihal V. Nayak, Max Zuo, Ilana Nguyen, Stephen H. Bach
cs.AI
要旨
大規模言語モデル(LLM)が様々なタスク難易度にわたってどの程度一般化するかを検討する。これは効果的なデータキュレーションと評価における重要な課題である。既存研究では、容易なデータと困難なデータのどちらで学習させる方が良い結果を得られるか、またその効果が容易なテストデータと困難なテストデータのどちらに現れるかについて、見解が分かれている。本研究では、モデル、データセット、事例難易度の細粒度グループにわたるLLMの一般化を体系的に評価することでこの問題に取り組む。6つのデータセットにおける事例を、数千種類の異なるLLMの出力と教育測定で確立された難易度指標である項目反応理論(IRT)を用いてランク付けする。先行研究と異なり、我々の難易度評価は人間の難易度判断を排し、多数の異なるLLMの能力のみによって決定される。より客観的で大規模かつ細粒度な分析により、難易度を跨いだ一般化は往々にして限定的であること、すなわち容易なデータと困難なデータのいずれで学習しても、難易度全域にわたる一貫した改善は達成できないことを示す。これらの結果は、LLMの学習と評価データに幅広い難易度範囲を含めることの重要性、および難易度に関して近道を取ることが危険であることを示唆している。
English
We investigate how well large language models (LLMs) generalize across different task difficulties, a key question for effective data curation and evaluation. Existing research is mixed regarding whether training on easier or harder data leads to better results, and whether those gains come on easier or harder test data. We address this question by conducting a systematic evaluation of LLMs' generalization across models, datasets, and fine-grained groups of example difficulty. We rank examples in six datasets using the outputs of thousands of different LLMs and Item Response Theory (IRT), a well-established difficulty metric in educational testing. Unlike prior work, our difficulty ratings are therefore determined solely by the abilities of many different LLMs, excluding human opinions of difficulty. With a more objective, larger-scale, and finer-grained analysis, we show that cross-difficulty generalization is often limited; training on either easy or hard data cannot achieve consistent improvements across the full range of difficulties. These results show the importance of having a range of difficulties in both training and evaluation data for LLMs, and that taking shortcuts with respect to difficulty is risky.