ChatPaper.aiChatPaper

Revisitando el Aprendizaje por Refuerzo para el Razonamiento de Modelos de Lenguaje desde una Perspectiva Interdominio

Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

June 17, 2025
Autores: Zhoujun Cheng, Shibo Hao, Tianyang Liu, Fan Zhou, Yutao Xie, Feng Yao, Yuexin Bian, Yonghao Zhuang, Nilabjo Dey, Yuheng Zha, Yi Gu, Kun Zhou, Yuqi Wang, Yuan Li, Richard Fan, Jianshu She, Chengqian Gao, Abulhair Saparov, Haonan Li, Taylor W. Killian, Mikhail Yurochkin, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI

Resumen

El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha surgido como un enfoque prometedor para mejorar el razonamiento de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). Sin embargo, la mayoría de los esfuerzos abiertos se centran de manera estrecha en matemáticas y código, lo que limita nuestra comprensión de su aplicabilidad más amplia al razonamiento general. Un desafío clave radica en la falta de señales de recompensa de RL confiables y escalables en diversos dominios de razonamiento. Presentamos Guru, un corpus de razonamiento RL curado que consta de 92K ejemplos verificables que abarcan seis dominios de razonamiento—Matemáticas, Código, Ciencia, Lógica, Simulación y Tabular—, cada uno construido mediante un diseño de recompensas específico del dominio, deduplicación y filtrado para garantizar la confiabilidad y efectividad en el entrenamiento de RL. Basándonos en Guru, revisamos sistemáticamente hallazgos establecidos en RL para el razonamiento de LLM y observamos una variación significativa entre dominios. Por ejemplo, mientras que trabajos previos sugieren que el RL principalmente extrae conocimiento existente de modelos preentrenados, nuestros resultados revelan un patrón más matizado: los dominios frecuentemente vistos durante el preentrenamiento (Matemáticas, Código, Ciencia) se benefician fácilmente del entrenamiento RL entre dominios, mientras que los dominios con exposición limitada durante el preentrenamiento (Lógica, Simulación y Tabular) requieren entrenamiento dentro del dominio para lograr mejoras significativas en el rendimiento, lo que sugiere que el RL probablemente facilita la adquisición genuina de habilidades. Finalmente, presentamos Guru-7B y Guru-32B, dos modelos que alcanzan un rendimiento de vanguardia entre los modelos abiertos entrenados con RL utilizando datos disponibles públicamente, superando a los mejores modelos de referencia en un 7.9% y 6.7% en nuestra suite de evaluación de 17 tareas que abarca seis dominios de razonamiento. También demostramos que nuestros modelos mejoran efectivamente el rendimiento Pass@k de sus modelos base, particularmente en tareas complejas que es menos probable que aparezcan en los datos de preentrenamiento. Publicamos datos, modelos, código de entrenamiento y evaluación para facilitar el razonamiento de propósito general en: https://github.com/LLM360/Reasoning360.
English
Reinforcement learning (RL) has emerged as a promising approach to improve large language model (LLM) reasoning, yet most open efforts focus narrowly on math and code, limiting our understanding of its broader applicability to general reasoning. A key challenge lies in the lack of reliable, scalable RL reward signals across diverse reasoning domains. We introduce Guru, a curated RL reasoning corpus of 92K verifiable examples spanning six reasoning domains--Math, Code, Science, Logic, Simulation, and Tabular--each built through domain-specific reward design, deduplication, and filtering to ensure reliability and effectiveness for RL training. Based on Guru, we systematically revisit established findings in RL for LLM reasoning and observe significant variation across domains. For example, while prior work suggests that RL primarily elicits existing knowledge from pretrained models, our results reveal a more nuanced pattern: domains frequently seen during pretraining (Math, Code, Science) easily benefit from cross-domain RL training, while domains with limited pretraining exposure (Logic, Simulation, and Tabular) require in-domain training to achieve meaningful performance gains, suggesting that RL is likely to facilitate genuine skill acquisition. Finally, we present Guru-7B and Guru-32B, two models that achieve state-of-the-art performance among open models RL-trained with publicly available data, outperforming best baselines by 7.9% and 6.7% on our 17-task evaluation suite across six reasoning domains. We also show that our models effectively improve the Pass@k performance of their base models, particularly on complex tasks less likely to appear in pretraining data. We release data, models, training and evaluation code to facilitate general-purpose reasoning at: https://github.com/LLM360/Reasoning360
PDF312June 20, 2025