Parte I: Truques ou Armadilhas? Uma Análise Profunda do RL para Raciocínio em LLMs
Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning
August 11, 2025
Autores: Zihe Liu, Jiashun Liu, Yancheng He, Weixun Wang, Jiaheng Liu, Ling Pan, Xinyu Hu, Shaopan Xiong, Ju Huang, Jian Hu, Shengyi Huang, Siran Yang, Jiamang Wang, Wenbo Su, Bo Zheng
cs.AI
Resumo
O aprendizado por reforço para o raciocínio de LLMs (Large Language Models) emergiu rapidamente como uma área de pesquisa proeminente, marcada por um aumento significativo de estudos relacionados tanto em inovações algorítmicas quanto em aplicações práticas. Apesar desse progresso, vários desafios críticos permanecem, incluindo a ausência de diretrizes padronizadas para o emprego de técnicas de RL (Reinforcement Learning) e uma compreensão fragmentada de seus mecanismos subjacentes. Além disso, configurações experimentais inconsistentes, variações nos dados de treinamento e diferenças na inicialização dos modelos levaram a conclusões conflitantes, obscurecendo as características-chave dessas técnicas e gerando confusão entre os profissionais na seleção de técnicas apropriadas. Este artigo revisa sistematicamente as técnicas de RL amplamente adotadas por meio de reproduções rigorosas e avaliações isoladas dentro de uma estrutura unificada de código aberto. Analisamos os mecanismos internos, cenários aplicáveis e princípios centrais de cada técnica por meio de experimentos detalhados, incluindo conjuntos de dados de dificuldade variada, tamanhos de modelos e arquiteturas. Com base nessas análises, apresentamos diretrizes claras para a seleção de técnicas de RL adaptadas a configurações específicas e fornecemos um roteiro confiável para profissionais que atuam no domínio de RL para LLMs. Por fim, revelamos que uma combinação minimalista de duas técnicas pode desbloquear a capacidade de aprendizado de políticas sem críticos usando a função de perda PPO (Proximal Policy Optimization) padrão. Os resultados demonstram que nossa combinação simples melhora consistentemente o desempenho, superando estratégias como GRPO e DAPO.
English
Reinforcement learning for LLM reasoning has rapidly emerged as a prominent
research area, marked by a significant surge in related studies on both
algorithmic innovations and practical applications. Despite this progress,
several critical challenges remain, including the absence of standardized
guidelines for employing RL techniques and a fragmented understanding of their
underlying mechanisms. Additionally, inconsistent experimental settings,
variations in training data, and differences in model initialization have led
to conflicting conclusions, obscuring the key characteristics of these
techniques and creating confusion among practitioners when selecting
appropriate techniques. This paper systematically reviews widely adopted RL
techniques through rigorous reproductions and isolated evaluations within a
unified open-source framework. We analyze the internal mechanisms, applicable
scenarios, and core principles of each technique through fine-grained
experiments, including datasets of varying difficulty, model sizes, and
architectures. Based on these insights, we present clear guidelines for
selecting RL techniques tailored to specific setups, and provide a reliable
roadmap for practitioners navigating the RL for the LLM domain. Finally, we
reveal that a minimalist combination of two techniques can unlock the learning
capability of critic-free policies using vanilla PPO loss. The results
demonstrate that our simple combination consistently improves performance,
surpassing strategies like GRPO and DAPO.