ChatPaper.aiChatPaper

Переосмысление обобщаемости по уровням сложности: это не так просто

Revisiting Generalization Across Difficulty Levels: It's Not So Easy

November 26, 2025
Авторы: Yeganeh Kordi, Nihal V. Nayak, Max Zuo, Ilana Nguyen, Stephen H. Bach
cs.AI

Аннотация

Мы исследуем, насколько хорошо большие языковые модели (LLM) обобщают знания для задач разной сложности, что является ключевым вопросом для эффективного курирования данных и их оценки. Существующие исследования дают противоречивые результаты относительно того, приводит ли обучение на более простых или более сложных данных к лучшим результатам и проявляются ли эти улучшения на простых или сложных тестовых данных. Мы решаем этот вопрос, проводя систематическую оценку способности LLM к обобщению на различных моделях, наборах данных и детализированных группах примеров, сгруппированных по сложности. Мы ранжируем примеры в шести наборах данных, используя выходные данные тысяч различных LLM и Теорию учебных тестов (Item Response Theory, IRT) — устоявшуюся метрику сложности в образовательном тестировании. В отличие от предыдущих работ, наши оценки сложности определяются исключительно на основе способностей множества различных LLM, исключая человеческие представления о сложности. Проведя более объективный, масштабный и детализированный анализ, мы показываем, что кросс-сложностное обобщение часто ограничено; обучение как на простых, так и на сложных данных не позволяет достичь стабильного улучшения результатов на всем диапазоне сложностей. Эти результаты демонстрируют важность наличия в обучающих и оценочных данных для LLM примеров разного уровня сложности, а также то, что поиск упрощенных решений в отношении сложности сопряжен с рисками.
English
We investigate how well large language models (LLMs) generalize across different task difficulties, a key question for effective data curation and evaluation. Existing research is mixed regarding whether training on easier or harder data leads to better results, and whether those gains come on easier or harder test data. We address this question by conducting a systematic evaluation of LLMs' generalization across models, datasets, and fine-grained groups of example difficulty. We rank examples in six datasets using the outputs of thousands of different LLMs and Item Response Theory (IRT), a well-established difficulty metric in educational testing. Unlike prior work, our difficulty ratings are therefore determined solely by the abilities of many different LLMs, excluding human opinions of difficulty. With a more objective, larger-scale, and finer-grained analysis, we show that cross-difficulty generalization is often limited; training on either easy or hard data cannot achieve consistent improvements across the full range of difficulties. These results show the importance of having a range of difficulties in both training and evaluation data for LLMs, and that taking shortcuts with respect to difficulty is risky.
PDF152December 1, 2025