Treinamento de Modelos de Raciocínio em Problemas Saturados por meio de Condicionamento por Prefixo de Falha

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) melhorou substancialmente as capacidades de raciocínio de modelos de linguagem grandes (LLMs), mas o treinamento frequentemente estagna à medida que os problemas ficam saturados. Identificamos o principal desafio como a baixa acessibilidade de falhas informativas: sinais de aprendizado existem, mas raramente são encontrados durante rollouts padrão. Para resolver isso, propomos o condicionamento por prefixo de falha, um método simples e eficaz para aprender com problemas saturados. Em vez de começar a partir da pergunta original, nossa abordagem realoca a exploração condicionando o treinamento em prefixos derivados de trajetórias raras de raciocínio incorreto, expondo assim o modelo a estados propensos a falhas. Observamos que o condicionamento por prefixo de falha produz ganhos de desempenho equivalentes aos do treinamento em problemas de dificuldade média, preservando a eficiência de tokens. Além disso, analisamos a robustez do modelo, constatando que nosso método reduz a degradação de desempenho sob prefixos de falha enganosos, embora com uma troca leve na adesão ao raciocínio correto inicial. Por fim, demonstramos que uma abordagem iterativa, que atualiza os prefixos de falha durante o treinamento, desbloqueia ganhos adicionais após os platôs de desempenho. No geral, nossos resultados sugerem que o condicionamento por prefixo de falha oferece um caminho eficaz para estender o treinamento RLVR em problemas saturados.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has substantially improved the reasoning abilities of large language models (LLMs), yet training often stalls as problems become saturated. We identify the core challenge as the poor accessibility of informative failures: learning signals exist but are rarely encountered during standard rollouts. To address this, we propose failure-prefix conditioning, a simple and effective method for learning from saturated problems. Rather than starting from the original question, our approach reallocates exploration by conditioning training on prefixes derived from rare incorrect reasoning trajectories, thereby exposing the model to failure-prone states. We observe that failure-prefix conditioning yields performance gains matching those of training on medium-difficulty problems, while preserving token efficiency. Furthermore, we analyze the model's robustness, finding that our method reduces performance degradation under misleading failure prefixes, albeit with a mild trade-off in adherence to correct early reasoning. Finally, we demonstrate that an iterative approach, which refreshes failure prefixes during training, unlocks additional gains after performance plateaus. Overall, our results suggest that failure-prefix conditioning offers an effective pathway to extend RLVR training on saturated problems.

Treinamento de Modelos de Raciocínio em Problemas Saturados por meio de Condicionamento por Prefixo de Falha

Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning

Resumo

Support