Reconsidérer l'apprentissage par renforcement pour le raisonnement des LLM sous une perspective interdomaine
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective
June 17, 2025
Auteurs: Zhoujun Cheng, Shibo Hao, Tianyang Liu, Fan Zhou, Yutao Xie, Feng Yao, Yuexin Bian, Yonghao Zhuang, Nilabjo Dey, Yuheng Zha, Yi Gu, Kun Zhou, Yuqi Wang, Yuan Li, Richard Fan, Jianshu She, Chengqian Gao, Abulhair Saparov, Haonan Li, Taylor W. Killian, Mikhail Yurochkin, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI
Résumé
L'apprentissage par renforcement (RL) s'est imposé comme une approche prometteuse pour améliorer le raisonnement des grands modèles de langage (LLM). Cependant, la plupart des efforts ouverts se concentrent de manière étroite sur les mathématiques et le code, limitant ainsi notre compréhension de son applicabilité plus large au raisonnement général. Un défi majeur réside dans le manque de signaux de récompense RL fiables et évolutifs à travers divers domaines de raisonnement. Nous présentons Guru, un corpus de raisonnement RL soigneusement constitué de 92 000 exemples vérifiables couvrant six domaines de raisonnement—Mathématiques, Code, Science, Logique, Simulation et Tabulaire—chacun construit grâce à une conception de récompense spécifique au domaine, une déduplication et un filtrage pour garantir la fiabilité et l'efficacité pour l'entraînement RL. Sur la base de Guru, nous revisitons systématiquement les conclusions établies en RL pour le raisonnement des LLM et observons des variations significatives entre les domaines. Par exemple, alors que les travaux antérieurs suggèrent que le RL mobilise principalement les connaissances existantes des modèles pré-entraînés, nos résultats révèlent un schéma plus nuancé : les domaines fréquemment rencontrés lors du pré-entraînement (Mathématiques, Code, Science) bénéficient facilement d'un entraînement RL interdomaine, tandis que les domaines avec une exposition limitée au pré-entraînement (Logique, Simulation et Tabulaire) nécessitent un entraînement intra-domaine pour obtenir des gains de performance significatifs, suggérant que le RL est susceptible de faciliter une véritable acquisition de compétences. Enfin, nous présentons Guru-7B et Guru-32B, deux modèles qui atteignent des performances de pointe parmi les modèles ouverts entraînés par RL avec des données publiquement disponibles, surpassant les meilleures bases de référence de 7,9 % et 6,7 % sur notre suite d'évaluation de 17 tâches couvrant six domaines de raisonnement. Nous montrons également que nos modèles améliorent efficacement la performance Pass@k de leurs modèles de base, en particulier sur les tâches complexes moins susceptibles d'apparaître dans les données de pré-entraînement. Nous publions les données, les modèles, ainsi que les codes d'entraînement et d'évaluation pour faciliter le raisonnement à usage général à l'adresse suivante : https://github.com/LLM360/Reasoning360.
English
Reinforcement learning (RL) has emerged as a promising approach to improve
large language model (LLM) reasoning, yet most open efforts focus narrowly on
math and code, limiting our understanding of its broader applicability to
general reasoning. A key challenge lies in the lack of reliable, scalable RL
reward signals across diverse reasoning domains. We introduce Guru, a curated
RL reasoning corpus of 92K verifiable examples spanning six reasoning
domains--Math, Code, Science, Logic, Simulation, and Tabular--each built
through domain-specific reward design, deduplication, and filtering to ensure
reliability and effectiveness for RL training. Based on Guru, we systematically
revisit established findings in RL for LLM reasoning and observe significant
variation across domains. For example, while prior work suggests that RL
primarily elicits existing knowledge from pretrained models, our results reveal
a more nuanced pattern: domains frequently seen during pretraining (Math, Code,
Science) easily benefit from cross-domain RL training, while domains with
limited pretraining exposure (Logic, Simulation, and Tabular) require in-domain
training to achieve meaningful performance gains, suggesting that RL is likely
to facilitate genuine skill acquisition. Finally, we present Guru-7B and
Guru-32B, two models that achieve state-of-the-art performance among open
models RL-trained with publicly available data, outperforming best baselines by
7.9% and 6.7% on our 17-task evaluation suite across six reasoning domains. We
also show that our models effectively improve the Pass@k performance of their
base models, particularly on complex tasks less likely to appear in pretraining
data. We release data, models, training and evaluation code to facilitate
general-purpose reasoning at: https://github.com/LLM360/Reasoning360