Revisitando el Aprendizaje por Refuerzo para el Razonamiento de Modelos de Lenguaje desde una Perspectiva Interdominio
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective
June 17, 2025
Autores: Zhoujun Cheng, Shibo Hao, Tianyang Liu, Fan Zhou, Yutao Xie, Feng Yao, Yuexin Bian, Yonghao Zhuang, Nilabjo Dey, Yuheng Zha, Yi Gu, Kun Zhou, Yuqi Wang, Yuan Li, Richard Fan, Jianshu She, Chengqian Gao, Abulhair Saparov, Haonan Li, Taylor W. Killian, Mikhail Yurochkin, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha surgido como un enfoque prometedor para mejorar el razonamiento de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). Sin embargo, la mayoría de los esfuerzos abiertos se centran de manera estrecha en matemáticas y código, lo que limita nuestra comprensión de su aplicabilidad más amplia al razonamiento general. Un desafío clave radica en la falta de señales de recompensa de RL confiables y escalables en diversos dominios de razonamiento. Presentamos Guru, un corpus de razonamiento RL curado que consta de 92K ejemplos verificables que abarcan seis dominios de razonamiento—Matemáticas, Código, Ciencia, Lógica, Simulación y Tabular—, cada uno construido mediante un diseño de recompensas específico del dominio, deduplicación y filtrado para garantizar la confiabilidad y efectividad en el entrenamiento de RL. Basándonos en Guru, revisamos sistemáticamente hallazgos establecidos en RL para el razonamiento de LLM y observamos una variación significativa entre dominios. Por ejemplo, mientras que trabajos previos sugieren que el RL principalmente extrae conocimiento existente de modelos preentrenados, nuestros resultados revelan un patrón más matizado: los dominios frecuentemente vistos durante el preentrenamiento (Matemáticas, Código, Ciencia) se benefician fácilmente del entrenamiento RL entre dominios, mientras que los dominios con exposición limitada durante el preentrenamiento (Lógica, Simulación y Tabular) requieren entrenamiento dentro del dominio para lograr mejoras significativas en el rendimiento, lo que sugiere que el RL probablemente facilita la adquisición genuina de habilidades. Finalmente, presentamos Guru-7B y Guru-32B, dos modelos que alcanzan un rendimiento de vanguardia entre los modelos abiertos entrenados con RL utilizando datos disponibles públicamente, superando a los mejores modelos de referencia en un 7.9% y 6.7% en nuestra suite de evaluación de 17 tareas que abarca seis dominios de razonamiento. También demostramos que nuestros modelos mejoran efectivamente el rendimiento Pass@k de sus modelos base, particularmente en tareas complejas que es menos probable que aparezcan en los datos de preentrenamiento. Publicamos datos, modelos, código de entrenamiento y evaluación para facilitar el razonamiento de propósito general en: https://github.com/LLM360/Reasoning360.
English
Reinforcement learning (RL) has emerged as a promising approach to improve
large language model (LLM) reasoning, yet most open efforts focus narrowly on
math and code, limiting our understanding of its broader applicability to
general reasoning. A key challenge lies in the lack of reliable, scalable RL
reward signals across diverse reasoning domains. We introduce Guru, a curated
RL reasoning corpus of 92K verifiable examples spanning six reasoning
domains--Math, Code, Science, Logic, Simulation, and Tabular--each built
through domain-specific reward design, deduplication, and filtering to ensure
reliability and effectiveness for RL training. Based on Guru, we systematically
revisit established findings in RL for LLM reasoning and observe significant
variation across domains. For example, while prior work suggests that RL
primarily elicits existing knowledge from pretrained models, our results reveal
a more nuanced pattern: domains frequently seen during pretraining (Math, Code,
Science) easily benefit from cross-domain RL training, while domains with
limited pretraining exposure (Logic, Simulation, and Tabular) require in-domain
training to achieve meaningful performance gains, suggesting that RL is likely
to facilitate genuine skill acquisition. Finally, we present Guru-7B and
Guru-32B, two models that achieve state-of-the-art performance among open
models RL-trained with publicly available data, outperforming best baselines by
7.9% and 6.7% on our 17-task evaluation suite across six reasoning domains. We
also show that our models effectively improve the Pass@k performance of their
base models, particularly on complex tasks less likely to appear in pretraining
data. We release data, models, training and evaluation code to facilitate
general-purpose reasoning at: https://github.com/LLM360/Reasoning360