Совпадение модели с задачей определяет различные результаты обучения с подкреплением
Model-Task Alignment Drives Distinct RL Outcomes
August 28, 2025
Авторы: Haoze Wu, Cheng Wang, Wenshuo Zhao, Junxian He
cs.AI
Аннотация
Недавние достижения в применении обучения с подкреплением (RL) к большим языковым моделям (LLM) привели к значительному прогрессу. В частности, в LLM были зафиксированы серии удивительных и часто неинтуитивных явлений, демонстрирующих закономерности, которые обычно не наблюдаются в традиционных настройках RL. Например, среди примечательных утверждений — то, что один обучающий пример может соответствовать результатам, достигнутым с использованием всего набора данных, что сигнал вознаграждения не обязательно должен быть очень точным, и что обучение исключительно на отрицательных примерах может соответствовать или даже превосходить сложные методы, основанные на вознаграждении. Однако точные условия, при которых эти наблюдения справедливы — и, что критически важно, когда они не работают — остаются неясными. В данной работе мы выявляем ключевой фактор, отличающий наблюдения RL: наличие ли у предварительно обученной модели сильного соответствия между моделью и задачей (Model-Task Alignment), измеряемого точностью pass@k на оцениваемой задаче. Благодаря систематическому и всестороннему анализу серии неинтуитивных утверждений, подкрепленных строгой экспериментальной проверкой на различных архитектурах моделей и областях задач, наши результаты показывают, что, хотя стандартное обучение RL остается стабильно надежным в различных условиях, многие из этих неинтуитивных результатов возникают только тогда, когда модель и задача уже демонстрируют сильное соответствие. В то же время эти методы не способны обеспечить существенное обучение в более сложных режимах, где стандартные методы RL остаются эффективными.
English
Recent advances in applying reinforcement learning (RL) to large language
models (LLMs) have led to substantial progress. In particular, a series of
remarkable yet often counterintuitive phenomena have been reported in LLMs,
exhibiting patterns not typically observed in traditional RL settings. For
example, notable claims include that a single training example can match the
performance achieved with an entire dataset, that the reward signal does not
need to be very accurate, and that training solely with negative samples can
match or even surpass sophisticated reward-based methods. However, the precise
conditions under which these observations hold - and, critically, when they
fail - remain unclear. In this work, we identify a key factor that
differentiates RL observations: whether the pretrained model already exhibits
strong Model-Task Alignment, as measured by pass@k accuracy on the evaluated
task. Through a systematic and comprehensive examination of a series of
counterintuitive claims, supported by rigorous experimental validation across
different model architectures and task domains, our findings show that while
standard RL training remains consistently robust across settings, many of these
counterintuitive results arise only when the model and task already exhibit
strong model-task alignment. In contrast, these techniques fail to drive
substantial learning in more challenging regimes, where standard RL methods
remain effective.