ChatPaper.aiChatPaper

O Alinhamento Modelo-Tarefa Conduz a Resultados Distintos de RL

Model-Task Alignment Drives Distinct RL Outcomes

August 28, 2025
Autores: Haoze Wu, Cheng Wang, Wenshuo Zhao, Junxian He
cs.AI

Resumo

Os avanços recentes na aplicação de aprendizado por reforço (RL) a modelos de linguagem de grande escala (LLMs) têm levado a progressos substanciais. Em particular, uma série de fenômenos notáveis, mas frequentemente contra-intuitivos, tem sido relatada em LLMs, exibindo padrões que não são tipicamente observados em configurações tradicionais de RL. Por exemplo, afirmações notáveis incluem que um único exemplo de treinamento pode igualar o desempenho alcançado com um conjunto de dados completo, que o sinal de recompensa não precisa ser muito preciso e que o treinamento apenas com amostras negativas pode igualar ou até superar métodos sofisticados baseados em recompensa. No entanto, as condições precisas sob as quais essas observações se mantêm - e, crucialmente, quando elas falham - permanecem pouco claras. Neste trabalho, identificamos um fator chave que diferencia as observações de RL: se o modelo pré-treinado já exibe um forte Alinhamento Modelo-Tarefa, medido pela precisão pass@k na tarefa avaliada. Por meio de um exame sistemático e abrangente de uma série de afirmações contra-intuitivas, apoiado por validação experimental rigorosa em diferentes arquiteturas de modelo e domínios de tarefa, nossos resultados mostram que, embora o treinamento padrão de RL permaneça consistentemente robusto em várias configurações, muitos desses resultados contra-intuitivos surgem apenas quando o modelo e a tarefa já exibem um forte alinhamento modelo-tarefa. Em contraste, essas técnicas falham em impulsionar um aprendizado substancial em regimes mais desafiadores, onde os métodos padrão de RL permanecem eficazes.
English
Recent advances in applying reinforcement learning (RL) to large language models (LLMs) have led to substantial progress. In particular, a series of remarkable yet often counterintuitive phenomena have been reported in LLMs, exhibiting patterns not typically observed in traditional RL settings. For example, notable claims include that a single training example can match the performance achieved with an entire dataset, that the reward signal does not need to be very accurate, and that training solely with negative samples can match or even surpass sophisticated reward-based methods. However, the precise conditions under which these observations hold - and, critically, when they fail - remain unclear. In this work, we identify a key factor that differentiates RL observations: whether the pretrained model already exhibits strong Model-Task Alignment, as measured by pass@k accuracy on the evaluated task. Through a systematic and comprehensive examination of a series of counterintuitive claims, supported by rigorous experimental validation across different model architectures and task domains, our findings show that while standard RL training remains consistently robust across settings, many of these counterintuitive results arise only when the model and task already exhibit strong model-task alignment. In contrast, these techniques fail to drive substantial learning in more challenging regimes, where standard RL methods remain effective.
PDF82September 1, 2025