ChatPaper.aiChatPaper

SimpleRL-Zoo: Investigando e Domando o Aprendizado por Reforço Zero para Modelos Base Abertos em Ambientes Reais

SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild

March 24, 2025
Autores: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He
cs.AI

Resumo

O DeepSeek-R1 demonstrou que o raciocínio de cadeia longa de pensamento (CoT, na sigla em inglês) pode emergir naturalmente por meio de uma estrutura simples de aprendizado por reforço (RL, na sigla em inglês) com recompensas baseadas em regras, onde o treinamento pode começar diretamente a partir dos modelos base — um paradigma referido como treinamento zero RL. A maioria dos esforços recentes para reproduzir o treinamento zero RL tem se concentrado principalmente na série de modelos Qwen2.5, que pode não ser representativa, pois descobrimos que os modelos base já exibem fortes habilidades de seguir instruções e de autorreflexão. Neste trabalho, investigamos o treinamento zero RL em 10 modelos base diversos, abrangendo diferentes famílias e tamanhos, incluindo LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B e todos os modelos Qwen2.5 de 0.5B a 32B. Aproveitando várias estratégias de design-chave — como ajustar a recompensa de formato e controlar a dificuldade das consultas — alcançamos melhorias substanciais tanto na precisão do raciocínio quanto no comprimento das respostas na maioria das configurações. No entanto, ao monitorar cuidadosamente a dinâmica do treinamento, observamos que diferentes modelos base exibem padrões distintos durante o treinamento. Por exemplo, o aumento no comprimento da resposta nem sempre está correlacionado com o surgimento de certos comportamentos cognitivos, como a verificação (ou seja, o "momento eureka"). Notavelmente, observamos o "momento eureka" pela primeira vez em modelos pequenos que não pertencem à família Qwen. Compartilhamos os designs-chave que permitem o sucesso do treinamento zero RL, juntamente com nossas descobertas e práticas. Para facilitar pesquisas futuras, disponibilizamos o código, os modelos e as ferramentas de análise como código aberto.
English
DeepSeek-R1 has shown that long chain-of-thought (CoT) reasoning can naturally emerge through a simple reinforcement learning (RL) framework with rule-based rewards, where the training may directly start from the base models-a paradigm referred to as zero RL training. Most recent efforts to reproduce zero RL training have primarily focused on the Qwen2.5 model series, which may not be representative as we find the base models already exhibit strong instruction-following and self-reflection abilities. In this work, we investigate zero RL training across 10 diverse base models, spanning different families and sizes including LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B, and all Qwen2.5 models from 0.5B to 32B. Leveraging several key design strategies-such as adjusting format reward and controlling query difficulty-we achieve substantial improvements in both reasoning accuracy and response length across most settings. However, by carefully monitoring the training dynamics, we observe that different base models exhibit distinct patterns during training. For instance, the increased response length does not always correlate with the emergence of certain cognitive behaviors such as verification (i.e., the "aha moment"). Notably, we observe the "aha moment" for the first time in small models not from the Qwen family. We share the key designs that enable successful zero RL training, along with our findings and practices. To facilitate further research, we open-source the code, models, and analysis tools.

Summary

AI-Generated Summary

PDF301March 25, 2025