ChatPaper.aiChatPaper

Rivalutazione dell'Apprendimento per Rinforzo nel Ragionamento dei Modelli Linguistici da una Prospettiva Interdominio

Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

June 17, 2025
Autori: Zhoujun Cheng, Shibo Hao, Tianyang Liu, Fan Zhou, Yutao Xie, Feng Yao, Yuexin Bian, Yonghao Zhuang, Nilabjo Dey, Yuheng Zha, Yi Gu, Kun Zhou, Yuqi Wang, Yuan Li, Richard Fan, Jianshu She, Chengqian Gao, Abulhair Saparov, Haonan Li, Taylor W. Killian, Mikhail Yurochkin, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI

Abstract

L'apprendimento per rinforzo (Reinforcement Learning, RL) si è affermato come un approccio promettente per migliorare il ragionamento dei grandi modelli linguistici (Large Language Models, LLM), tuttavia la maggior parte degli sforzi aperti si concentra in modo ristretto su matematica e codice, limitando la nostra comprensione della sua più ampia applicabilità al ragionamento generale. Una delle principali sfide risiede nella mancanza di segnali di ricompensa RL affidabili e scalabili in diversi domini di ragionamento. Introduciamo Guru, un corpus curato di ragionamento RL composto da 92K esempi verificabili che coprono sei domini di ragionamento—Matematica, Codice, Scienza, Logica, Simulazione e Tabelle—ciascuno costruito attraverso un design di ricompensa specifico per il dominio, deduplicazione e filtraggio per garantire affidabilità ed efficacia per l'addestramento RL. Basandoci su Guru, esaminiamo sistematicamente i risultati consolidati nell'RL per il ragionamento dei LLM e osserviamo una significativa variazione tra i domini. Ad esempio, mentre lavori precedenti suggeriscono che l'RL principalmente eliciti conoscenze esistenti dai modelli pre-addestrati, i nostri risultati rivelano un modello più sfumato: i domini frequentemente visti durante il pre-addestramento (Matematica, Codice, Scienza) beneficiano facilmente dell'addestramento RL cross-dominio, mentre i domini con un'esposizione limitata durante il pre-addestramento (Logica, Simulazione e Tabelle) richiedono un addestramento in-dominio per ottenere miglioramenti significativi delle prestazioni, suggerendo che l'RL è probabilmente in grado di facilitare l'acquisizione di competenze genuine. Infine, presentiamo Guru-7B e Guru-32B, due modelli che raggiungono prestazioni all'avanguardia tra i modelli aperti addestrati con RL utilizzando dati pubblicamente disponibili, superando i migliori baseline del 7,9% e del 6,7% sulla nostra suite di valutazione composta da 17 task in sei domini di ragionamento. Mostriamo inoltre che i nostri modelli migliorano efficacemente le prestazioni Pass@k dei loro modelli base, in particolare su task complessi meno probabili nei dati di pre-addestramento. Rilasciamo dati, modelli, codice di addestramento e valutazione per facilitare il ragionamento generico all'indirizzo: https://github.com/LLM360/Reasoning360.
English
Reinforcement learning (RL) has emerged as a promising approach to improve large language model (LLM) reasoning, yet most open efforts focus narrowly on math and code, limiting our understanding of its broader applicability to general reasoning. A key challenge lies in the lack of reliable, scalable RL reward signals across diverse reasoning domains. We introduce Guru, a curated RL reasoning corpus of 92K verifiable examples spanning six reasoning domains--Math, Code, Science, Logic, Simulation, and Tabular--each built through domain-specific reward design, deduplication, and filtering to ensure reliability and effectiveness for RL training. Based on Guru, we systematically revisit established findings in RL for LLM reasoning and observe significant variation across domains. For example, while prior work suggests that RL primarily elicits existing knowledge from pretrained models, our results reveal a more nuanced pattern: domains frequently seen during pretraining (Math, Code, Science) easily benefit from cross-domain RL training, while domains with limited pretraining exposure (Logic, Simulation, and Tabular) require in-domain training to achieve meaningful performance gains, suggesting that RL is likely to facilitate genuine skill acquisition. Finally, we present Guru-7B and Guru-32B, two models that achieve state-of-the-art performance among open models RL-trained with publicly available data, outperforming best baselines by 7.9% and 6.7% on our 17-task evaluation suite across six reasoning domains. We also show that our models effectively improve the Pass@k performance of their base models, particularly on complex tasks less likely to appear in pretraining data. We release data, models, training and evaluation code to facilitate general-purpose reasoning at: https://github.com/LLM360/Reasoning360
PDF462June 20, 2025