DenoiseRL: Bootstrapping de Modelos de Raciocínio para Recuperação de Prefixos Ruidosos

Resumo

O aprendizado por reforço tornou-se um paradigma central para o avanço do raciocínio em grandes modelos de linguagem, mas a maioria dos métodos existentes ainda depende de modelos professores mais fortes ou de conjuntos de dados difíceis fortemente curados, limitando a melhoria escalável de capacidades. Neste artigo, apresentamos o DenoiseRL, uma estrutura de aprendizado por reforço que substitui a supervisão externa por otimização orientada à recuperação sobre falhas de modelos fracos. Em vez de depender de supervisão mais forte ou de dados cuidadosamente projetados, o DenoiseRL aprende diretamente de traços de raciocínio incorretos, convertendo-os em oportunidades de melhoria, tornando o treinamento mais escalável e menos dependente de recursos externos. Isso produz um sinal de aprendizado mais rico e diverso, melhorando a eficiência da exploração a partir do comportamento imperfeito do modelo. Como resultado, o DenoiseRL melhora o desempenho do raciocínio e a eficiência geral do treinamento, ao mesmo tempo que reduz a necessidade de curadoria de dados cara ou de modelos professores mais fortes. Empiricamente, o DenoiseRL supera consistentemente fortes baselines de RL on-policy em benchmarks competitivos de raciocínio matemático e geral, e promove um comportamento autocorretivo mais forte à medida que a dificuldade do treinamento aumenta, destacando um caminho alternativo eficaz e escalável para melhorar o raciocínio em grandes modelos de linguagem.

English

Reinforcement learning has become a central paradigm for advancing reasoning in large language models, yet most existing methods still depend on stronger teacher models or heavily curated difficult datasets, limiting scalable capability improvement. In this paper, we introduce DenoiseRL, a reinforcement learning framework that substitutes external supervision with recovery-oriented optimization over failures from weak models. Instead of relying on stronger supervision or carefully engineered data, DenoiseRL learns directly from incorrect reasoning traces by converting them into opportunities for improvement, making training more scalable and less dependent on external resources. This yields a richer and more diverse learning signal, improving exploration efficiency from imperfect model behavior. As a result, DenoiseRL improves reasoning performance and overall training efficiency while reducing the need for expensive data curation or stronger teacher models. Empirically, DenoiseRL consistently outperforms strong on-policy RL baselines across competitive mathematical and general reasoning benchmarks and promotes stronger self-corrective behavior as training difficulty increases, highlighting an effective and scalable alternative pathway for improving reasoning in large language models.