ChatPaper.aiChatPaper

Совпадение модели с задачей определяет различные результаты обучения с подкреплением

Model-Task Alignment Drives Distinct RL Outcomes

August 28, 2025
Авторы: Haoze Wu, Cheng Wang, Wenshuo Zhao, Junxian He
cs.AI

Аннотация

Недавние достижения в применении обучения с подкреплением (RL) к большим языковым моделям (LLM) привели к значительному прогрессу. В частности, в LLM были зафиксированы серии удивительных и часто неинтуитивных явлений, демонстрирующих закономерности, которые обычно не наблюдаются в традиционных настройках RL. Например, среди примечательных утверждений — то, что один обучающий пример может соответствовать результатам, достигнутым с использованием всего набора данных, что сигнал вознаграждения не обязательно должен быть очень точным, и что обучение исключительно на отрицательных примерах может соответствовать или даже превосходить сложные методы, основанные на вознаграждении. Однако точные условия, при которых эти наблюдения справедливы — и, что критически важно, когда они не работают — остаются неясными. В данной работе мы выявляем ключевой фактор, отличающий наблюдения RL: наличие ли у предварительно обученной модели сильного соответствия между моделью и задачей (Model-Task Alignment), измеряемого точностью pass@k на оцениваемой задаче. Благодаря систематическому и всестороннему анализу серии неинтуитивных утверждений, подкрепленных строгой экспериментальной проверкой на различных архитектурах моделей и областях задач, наши результаты показывают, что, хотя стандартное обучение RL остается стабильно надежным в различных условиях, многие из этих неинтуитивных результатов возникают только тогда, когда модель и задача уже демонстрируют сильное соответствие. В то же время эти методы не способны обеспечить существенное обучение в более сложных режимах, где стандартные методы RL остаются эффективными.
English
Recent advances in applying reinforcement learning (RL) to large language models (LLMs) have led to substantial progress. In particular, a series of remarkable yet often counterintuitive phenomena have been reported in LLMs, exhibiting patterns not typically observed in traditional RL settings. For example, notable claims include that a single training example can match the performance achieved with an entire dataset, that the reward signal does not need to be very accurate, and that training solely with negative samples can match or even surpass sophisticated reward-based methods. However, the precise conditions under which these observations hold - and, critically, when they fail - remain unclear. In this work, we identify a key factor that differentiates RL observations: whether the pretrained model already exhibits strong Model-Task Alignment, as measured by pass@k accuracy on the evaluated task. Through a systematic and comprehensive examination of a series of counterintuitive claims, supported by rigorous experimental validation across different model architectures and task domains, our findings show that while standard RL training remains consistently robust across settings, many of these counterintuitive results arise only when the model and task already exhibit strong model-task alignment. In contrast, these techniques fail to drive substantial learning in more challenging regimes, where standard RL methods remain effective.
PDF82September 1, 2025