Revisitando o Aprendizado por Reforço para o Raciocínio de LLMs sob uma Perspectiva Multidomínio
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective
June 17, 2025
Autores: Zhoujun Cheng, Shibo Hao, Tianyang Liu, Fan Zhou, Yutao Xie, Feng Yao, Yuexin Bian, Yonghao Zhuang, Nilabjo Dey, Yuheng Zha, Yi Gu, Kun Zhou, Yuqi Wang, Yuan Li, Richard Fan, Jianshu She, Chengqian Gao, Abulhair Saparov, Haonan Li, Taylor W. Killian, Mikhail Yurochkin, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI
Resumo
O aprendizado por reforço (RL, do inglês Reinforcement Learning) surgiu como uma abordagem promissora para aprimorar o raciocínio de modelos de linguagem de grande escala (LLM, do inglês Large Language Models). No entanto, a maioria dos esforços abertos concentra-se de forma restrita em matemática e código, limitando nossa compreensão sobre sua aplicabilidade mais ampla ao raciocínio geral. Um desafio fundamental reside na falta de sinais de recompensa de RL confiáveis e escaláveis em diversos domínios de raciocínio. Apresentamos o Guru, um corpus de raciocínio de RL cuidadosamente elaborado, contendo 92 mil exemplos verificáveis que abrangem seis domínios de raciocínio—Matemática, Código, Ciência, Lógica, Simulação e Tabelas—cada um construído por meio de design de recompensa específico do domínio, deduplicação e filtragem para garantir confiabilidade e eficácia no treinamento de RL. Com base no Guru, revisitamos sistematicamente descobertas estabelecidas em RL para raciocínio de LLM e observamos variações significativas entre os domínios. Por exemplo, enquanto trabalhos anteriores sugerem que o RL principalmente elicia conhecimento existente de modelos pré-treinados, nossos resultados revelam um padrão mais sutil: domínios frequentemente vistos durante o pré-treinamento (Matemática, Código, Ciência) beneficiam-se facilmente do treinamento de RL entre domínios, enquanto domínios com exposição limitada no pré-treinamento (Lógica, Simulação e Tabelas) exigem treinamento dentro do domínio para alcançar ganhos de desempenho significativos, sugerindo que o RL provavelmente facilita a aquisição genuína de habilidades. Por fim, apresentamos o Guru-7B e o Guru-32B, dois modelos que alcançam desempenho de ponta entre modelos abertos treinados com RL usando dados publicamente disponíveis, superando as melhores baselines em 7,9% e 6,7% em nossa suíte de avaliação de 17 tarefas abrangendo seis domínios de raciocínio. Também mostramos que nossos modelos melhoram efetivamente o desempenho Pass@k de seus modelos base, particularmente em tarefas complexas menos prováveis de aparecerem em dados de pré-treinamento. Disponibilizamos dados, modelos, códigos de treinamento e avaliação para facilitar o raciocínio de propósito geral em: https://github.com/LLM360/Reasoning360.
English
Reinforcement learning (RL) has emerged as a promising approach to improve
large language model (LLM) reasoning, yet most open efforts focus narrowly on
math and code, limiting our understanding of its broader applicability to
general reasoning. A key challenge lies in the lack of reliable, scalable RL
reward signals across diverse reasoning domains. We introduce Guru, a curated
RL reasoning corpus of 92K verifiable examples spanning six reasoning
domains--Math, Code, Science, Logic, Simulation, and Tabular--each built
through domain-specific reward design, deduplication, and filtering to ensure
reliability and effectiveness for RL training. Based on Guru, we systematically
revisit established findings in RL for LLM reasoning and observe significant
variation across domains. For example, while prior work suggests that RL
primarily elicits existing knowledge from pretrained models, our results reveal
a more nuanced pattern: domains frequently seen during pretraining (Math, Code,
Science) easily benefit from cross-domain RL training, while domains with
limited pretraining exposure (Logic, Simulation, and Tabular) require in-domain
training to achieve meaningful performance gains, suggesting that RL is likely
to facilitate genuine skill acquisition. Finally, we present Guru-7B and
Guru-32B, two models that achieve state-of-the-art performance among open
models RL-trained with publicly available data, outperforming best baselines by
7.9% and 6.7% on our 17-task evaluation suite across six reasoning domains. We
also show that our models effectively improve the Pass@k performance of their
base models, particularly on complex tasks less likely to appear in pretraining
data. We release data, models, training and evaluation code to facilitate
general-purpose reasoning at: https://github.com/LLM360/Reasoning360