ChatPaper.aiChatPaper

난이도에 따른 일반화 재고: 쉬운 일만은 아니다

Revisiting Generalization Across Difficulty Levels: It's Not So Easy

November 26, 2025
저자: Yeganeh Kordi, Nihal V. Nayak, Max Zuo, Ilana Nguyen, Stephen H. Bach
cs.AI

초록

우리는 대규모 언어 모델(LLM)이 서로 다른 과제 난이도에 걸쳐 얼마나 잘 일반화하는지 조사하며, 이는 효과적인 데이터 큐레이션과 평가를 위한 핵심 질문입니다. 기존 연구는 쉬운 데이터나 어려운 데이터 중 어떤 것으로 훈련했을 때 더 나은 결과를 얻는지, 그리고 그러한 성능 향상이 쉬운 테스트 데이터와 어려운 테스트 데이터 중 어디에서 나타나는지에 대해 엇갈린 결론을 보여줍니다. 우리는 모델, 데이터셋, 그리고 예시 난이도의 세분화된 그룹에 걸쳐 LLM의 일반화를 체계적으로 평가함으로써 이 문제를 다룹니다. 우리는 수천 가지 서로 다른 LLM의 출력과 교육 평가 분야에서 잘 정립된 난이도 지표인 문항 반응 이론(IRT)을 활용하여 여섯 가지 데이터셋의 예시들을 순위 매깁니다. 따라서 기존 연구와 달리, 우리의 난이도 등급은 인간의 난이도 주관적 판단을 배제하고 오직 다양한 LLM들의 능력만으로 결정됩니다. 보다 객관적이고 대규모이며 세분화된 분석을 통해, 우리는 난이도 간 일반화가 종종 제한적임을 보여줍니다. 쉬운 데이터나 어려운 데이터로 훈련하는 것만으로는 모든 난이도 범위에 걸쳐 일관된 개선을 달성할 수 없습니다. 이러한 결과는 LLM의 훈련 및 평가 데이터에 다양한 난이도의 예시를 포함하는 것의 중요성과, 난이도 측면에서 지름길을 택하는 것이 위험할 수 있음을 시사합니다.
English
We investigate how well large language models (LLMs) generalize across different task difficulties, a key question for effective data curation and evaluation. Existing research is mixed regarding whether training on easier or harder data leads to better results, and whether those gains come on easier or harder test data. We address this question by conducting a systematic evaluation of LLMs' generalization across models, datasets, and fine-grained groups of example difficulty. We rank examples in six datasets using the outputs of thousands of different LLMs and Item Response Theory (IRT), a well-established difficulty metric in educational testing. Unlike prior work, our difficulty ratings are therefore determined solely by the abilities of many different LLMs, excluding human opinions of difficulty. With a more objective, larger-scale, and finer-grained analysis, we show that cross-difficulty generalization is often limited; training on either easy or hard data cannot achieve consistent improvements across the full range of difficulties. These results show the importance of having a range of difficulties in both training and evaluation data for LLMs, and that taking shortcuts with respect to difficulty is risky.
PDF152December 1, 2025