ChatPaper.aiChatPaper

Neubetrachtung von Reinforcement Learning für das Reasoning von LLMs aus einer domänenübergreifenden Perspektive

Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

June 17, 2025
Autoren: Zhoujun Cheng, Shibo Hao, Tianyang Liu, Fan Zhou, Yutao Xie, Feng Yao, Yuexin Bian, Yonghao Zhuang, Nilabjo Dey, Yuheng Zha, Yi Gu, Kun Zhou, Yuqi Wang, Yuan Li, Richard Fan, Jianshu She, Chengqian Gao, Abulhair Saparov, Haonan Li, Taylor W. Killian, Mikhail Yurochkin, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI

Zusammenfassung

Reinforcement Learning (RL) hat sich als vielversprechender Ansatz erwiesen, um das Reasoning großer Sprachmodelle (LLMs) zu verbessern. Die meisten offenen Bemühungen konzentrieren sich jedoch eng auf Mathematik und Code, was unser Verständnis der breiteren Anwendbarkeit auf allgemeines Reasoning einschränkt. Eine zentrale Herausforderung liegt im Mangel an zuverlässigen, skalierbaren RL-Belohnungssignalen über verschiedene Reasoning-Domänen hinweg. Wir stellen Guru vor, einen kuratierten RL-Reasoning-Korpus mit 92.000 verifizierbaren Beispielen aus sechs Reasoning-Domänen – Mathematik, Code, Naturwissenschaften, Logik, Simulation und Tabellen –, die jeweils durch domänenspezifisches Belohnungsdesign, Deduplizierung und Filterung erstellt wurden, um Zuverlässigkeit und Effektivität für das RL-Training zu gewährleisten. Basierend auf Guru untersuchen wir systematisch etablierte Erkenntnisse im RL für LLM-Reasoning und beobachten signifikante Unterschiede zwischen den Domänen. Während frühere Arbeiten nahelegen, dass RL hauptsächlich vorhandenes Wissen aus vortrainierten Modellen abruft, zeigen unsere Ergebnisse ein differenzierteres Muster: Domänen, die während des Vortrainings häufig vorkommen (Mathematik, Code, Naturwissenschaften), profitieren leicht von domänenübergreifendem RL-Training, während Domänen mit begrenzter Vortrainingserfahrung (Logik, Simulation und Tabellen) domänenspezifisches Training benötigen, um bedeutende Leistungssteigerungen zu erzielen. Dies deutet darauf hin, dass RL wahrscheinlich den Erwerb echter Fähigkeiten fördert. Schließlich präsentieren wir Guru-7B und Guru-32B, zwei Modelle, die unter offenen Modellen, die mit öffentlich verfügbaren Daten RL-trainiert wurden, Spitzenleistungen erzielen und die besten Baseline-Modelle in unserem 17-Task-Evaluationssuite über sechs Reasoning-Domänen um 7,9 % bzw. 6,7 % übertreffen. Wir zeigen auch, dass unsere Modelle die Pass@k-Leistung ihrer Basismodelle effektiv verbessern, insbesondere bei komplexen Aufgaben, die seltener in Vortrainingsdaten vorkommen. Wir veröffentlichen Daten, Modelle sowie Trainings- und Evaluationscode, um allgemeines Reasoning zu fördern, unter: https://github.com/LLM360/Reasoning360.
English
Reinforcement learning (RL) has emerged as a promising approach to improve large language model (LLM) reasoning, yet most open efforts focus narrowly on math and code, limiting our understanding of its broader applicability to general reasoning. A key challenge lies in the lack of reliable, scalable RL reward signals across diverse reasoning domains. We introduce Guru, a curated RL reasoning corpus of 92K verifiable examples spanning six reasoning domains--Math, Code, Science, Logic, Simulation, and Tabular--each built through domain-specific reward design, deduplication, and filtering to ensure reliability and effectiveness for RL training. Based on Guru, we systematically revisit established findings in RL for LLM reasoning and observe significant variation across domains. For example, while prior work suggests that RL primarily elicits existing knowledge from pretrained models, our results reveal a more nuanced pattern: domains frequently seen during pretraining (Math, Code, Science) easily benefit from cross-domain RL training, while domains with limited pretraining exposure (Logic, Simulation, and Tabular) require in-domain training to achieve meaningful performance gains, suggesting that RL is likely to facilitate genuine skill acquisition. Finally, we present Guru-7B and Guru-32B, two models that achieve state-of-the-art performance among open models RL-trained with publicly available data, outperforming best baselines by 7.9% and 6.7% on our 17-task evaluation suite across six reasoning domains. We also show that our models effectively improve the Pass@k performance of their base models, particularly on complex tasks less likely to appear in pretraining data. We release data, models, training and evaluation code to facilitate general-purpose reasoning at: https://github.com/LLM360/Reasoning360
PDF312June 20, 2025