ChatPaper.aiChatPaper

NEMOTRON-CROSSTHINK : Élargir l'auto-apprentissage au-delà du raisonnement mathématique

NEMOTRON-CROSSTHINK: Scaling Self-Learning beyond Math Reasoning

April 15, 2025
Auteurs: Syeda Nahida Akter, Shrimai Prabhumoye, Matvei Novikov, Seungju Han, Ying Lin, Evelina Bakhturi, Eric Nyberg, Yejin Choi, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré de solides capacités de raisonnement, en particulier lorsqu'ils sont améliorés par l'apprentissage par renforcement (RL). Bien que les travaux antérieurs aient appliqué avec succès le RL au raisonnement mathématique — où les règles et la justesse sont bien définies — la généralisation de ces méthodes à des domaines de raisonnement plus vastes reste difficile en raison de données limitées, de l'absence de structures de récompense vérifiables et de la diversité des exigences des tâches. Dans ce travail, nous proposons NEMOTRON-CROSSTHINK, un cadre qui intègre systématiquement des corpus multi-domaines, incluant des paires de questions-réponses synthétiques et réelles, dans l'entraînement par RL pour améliorer la généralisation à travers diverses tâches de raisonnement. NEMOTRON-CROSSTHINK aborde les principaux défis en (1) incorporant des données provenant de sources variées couvrant les STEM, les sciences humaines, les sciences sociales, etc. ; (2) appliquant des modèles structurés (par exemple, à choix multiples et à réponse ouverte) pour contrôler la complexité de l'espace des réponses ; (3) filtrant les réponses vérifiables ; et (4) optimisant les stratégies de mélange de données qui utilisent efficacement les données provenant de multiples sources. Notre approche permet une modélisation des récompenses scalable et vérifiable au-delà des mathématiques et démontre des améliorations de précision à la fois sur des benchmarks de raisonnement mathématique (MATH-500 : +30,1 %, AMC23 : +27,5 %) et non mathématique (MMLU-PRO : +12,8 %, GPQA-DIAMOND : +11,3 %, AGIEVAL : +15,1 %, SUPERGPQA : +3,8 %). De plus, NEMOTRON-CROSSTHINK montre une efficacité de réponse significativement améliorée — utilisant 28 % de tokens en moins pour les réponses correctes — mettant en évidence un raisonnement plus ciblé et efficace. À travers NEMOTRON-CROSSTHINK, nous démontrons que l'intégration de données multi-domaines et multi-formats dans le RL conduit à des LLMs plus précis, efficaces et généralisables.
English
Large Language Models (LLMs) have shown strong reasoning capabilities, particularly when enhanced through Reinforcement Learning (RL). While prior work has successfully applied RL to mathematical reasoning -- where rules and correctness are well-defined -- generalizing these methods to broader reasoning domains remains challenging due to limited data, the lack of verifiable reward structures, and diverse task requirements. In this work, we propose NEMOTRON-CROSSTHINK, a framework that systematically incorporates multi-domain corpora, including both synthetic and real-world question-answer pairs, into RL training to improve generalization across diverse reasoning tasks. NEMOTRON-CROSSTHINK addresses key challenges by (1) incorporating data from varied sources spanning STEM, humanities, social sciences, etc.; (2) applying structured templates (e.g., multiple-choice and open-ended) to control answer-space complexity; (3) filtering for verifiable answers; and (4) optimizing data blending strategies that utilizes data from multiple sources effectively. Our approach enables scalable and verifiable reward modeling beyond mathematics and demonstrates improved accuracies on both math (MATH-500: +30.1%, AMC23:+27.5%) and non-math reasoning benchmarks (MMLU-PRO: +12.8%, GPQA-DIAMOND: +11.3%, AGIEVAL: +15.1%, SUPERGPQA: +3.8%). Moreover, NEMOTRON-CROSSTHINK exhibits significantly improved response efficiency -- using 28% fewer tokens for correct answers -- highlighting more focused and effective reasoning. Through NEMOTRON-CROSSTHINK, we demonstrate that integrating multi-domain, multi-format data in RL leads to more accurate, efficient, and generalizable LLMs.

Summary

AI-Generated Summary

PDF64April 22, 2025