NEMOTRON-CROSSTHINK: Scalabilità dell'Apprendimento Autonomo oltre il Ragionamento Matematico
NEMOTRON-CROSSTHINK: Scaling Self-Learning beyond Math Reasoning
April 15, 2025
Autori: Syeda Nahida Akter, Shrimai Prabhumoye, Matvei Novikov, Seungju Han, Ying Lin, Evelina Bakhturi, Eric Nyberg, Yejin Choi, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro
cs.AI
Abstract
I Large Language Model (LLM) hanno dimostrato forti capacità di ragionamento, in particolare quando potenziati attraverso il Reinforcement Learning (RL). Mentre lavori precedenti hanno applicato con successo il RL al ragionamento matematico -- dove le regole e la correttezza sono ben definite -- generalizzare questi metodi a domini di ragionamento più ampi rimane una sfida a causa della limitata disponibilità di dati, della mancanza di strutture di ricompensa verificabili e dei requisiti variabili dei compiti. In questo lavoro, proponiamo NEMOTRON-CROSSTHINK, un framework che incorpora sistematicamente corpora multi-dominio, inclusi sia coppie domanda-risposta sintetiche che del mondo reale, nell'addestramento RL per migliorare la generalizzazione su compiti di ragionamento diversi. NEMOTRON-CROSSTHINK affronta le principali sfide (1) incorporando dati da fonti varie che spaziano dalle STEM alle scienze umane e sociali; (2) applicando modelli strutturati (ad esempio, a scelta multipla e a risposta aperta) per controllare la complessità dello spazio delle risposte; (3) filtrando le risposte verificabili; e (4) ottimizzando le strategie di miscelazione dei dati che utilizzano efficacemente dati provenienti da più fonti. Il nostro approccio consente una modellizzazione scalabile e verificabile delle ricompense oltre la matematica e dimostra miglioramenti in termini di accuratezza sia nei benchmark di ragionamento matematico (MATH-500: +30,1%, AMC23: +27,5%) che non matematici (MMLU-PRO: +12,8%, GPQA-DIAMOND: +11,3%, AGIEVAL: +15,1%, SUPERGPQA: +3,8%). Inoltre, NEMOTRON-CROSSTHINK mostra una significativa efficienza nelle risposte -- utilizzando il 28% in meno di token per risposte corrette -- evidenziando un ragionamento più focalizzato ed efficace. Attraverso NEMOTRON-CROSSTHINK, dimostriamo che l'integrazione di dati multi-dominio e multi-formato nel RL porta a LLM più accurati, efficienti e generalizzabili.
English
Large Language Models (LLMs) have shown strong reasoning capabilities,
particularly when enhanced through Reinforcement Learning (RL). While prior
work has successfully applied RL to mathematical reasoning -- where rules and
correctness are well-defined -- generalizing these methods to broader reasoning
domains remains challenging due to limited data, the lack of verifiable reward
structures, and diverse task requirements. In this work, we propose
NEMOTRON-CROSSTHINK, a framework that systematically incorporates multi-domain
corpora, including both synthetic and real-world question-answer pairs, into RL
training to improve generalization across diverse reasoning tasks.
NEMOTRON-CROSSTHINK addresses key challenges by (1) incorporating data from
varied sources spanning STEM, humanities, social sciences, etc.; (2) applying
structured templates (e.g., multiple-choice and open-ended) to control
answer-space complexity; (3) filtering for verifiable answers; and (4)
optimizing data blending strategies that utilizes data from multiple sources
effectively. Our approach enables scalable and verifiable reward modeling
beyond mathematics and demonstrates improved accuracies on both math (MATH-500:
+30.1%, AMC23:+27.5%) and non-math reasoning benchmarks (MMLU-PRO: +12.8%,
GPQA-DIAMOND: +11.3%, AGIEVAL: +15.1%, SUPERGPQA: +3.8%). Moreover,
NEMOTRON-CROSSTHINK exhibits significantly improved response efficiency --
using 28% fewer tokens for correct answers -- highlighting more focused and
effective reasoning. Through NEMOTRON-CROSSTHINK, we demonstrate that
integrating multi-domain, multi-format data in RL leads to more accurate,
efficient, and generalizable LLMs.Summary
AI-Generated Summary