ChatPaper.aiChatPaper

NEMOTRON-CROSSTHINK: Escalando a Aprendizagem Autônoma além do Raciocínio Matemático

NEMOTRON-CROSSTHINK: Scaling Self-Learning beyond Math Reasoning

April 15, 2025
Autores: Syeda Nahida Akter, Shrimai Prabhumoye, Matvei Novikov, Seungju Han, Ying Lin, Evelina Bakhturi, Eric Nyberg, Yejin Choi, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado fortes capacidades de raciocínio, especialmente quando aprimorados por meio de Aprendizado por Reforço (RL). Embora trabalhos anteriores tenham aplicado com sucesso RL ao raciocínio matemático -- onde as regras e a correção são bem definidas -- generalizar esses métodos para domínios mais amplos de raciocínio continua desafiador devido à limitação de dados, à falta de estruturas de recompensa verificáveis e à diversidade de requisitos das tarefas. Neste trabalho, propomos o NEMOTRON-CROSSTHINK, um framework que incorpora sistematicamente corpora de múltiplos domínios, incluindo pares de perguntas e respostas sintéticas e do mundo real, no treinamento de RL para melhorar a generalização em diversas tarefas de raciocínio. O NEMOTRON-CROSSTHINK aborda desafios-chave ao (1) incorporar dados de fontes variadas que abrangem STEM, humanidades, ciências sociais, etc.; (2) aplicar modelos estruturados (por exemplo, múltipla escolha e respostas abertas) para controlar a complexidade do espaço de respostas; (3) filtrar respostas verificáveis; e (4) otimizar estratégias de combinação de dados que utilizam efetivamente dados de múltiplas fontes. Nossa abordagem permite a modelagem escalável e verificável de recompensas além da matemática e demonstra melhorias de precisão tanto em benchmarks de raciocínio matemático (MATH-500: +30,1%, AMC23: +27,5%) quanto em benchmarks de raciocínio não matemático (MMLU-PRO: +12,8%, GPQA-DIAMOND: +11,3%, AGIEVAL: +15,1%, SUPERGPQA: +3,8%). Além disso, o NEMOTRON-CROSSTHINK exibe uma eficiência de resposta significativamente melhorada -- usando 28% menos tokens para respostas corretas -- destacando um raciocínio mais focado e eficaz. Por meio do NEMOTRON-CROSSTHINK, demonstramos que a integração de dados de múltiplos domínios e formatos no RL resulta em LLMs mais precisos, eficientes e generalizáveis.
English
Large Language Models (LLMs) have shown strong reasoning capabilities, particularly when enhanced through Reinforcement Learning (RL). While prior work has successfully applied RL to mathematical reasoning -- where rules and correctness are well-defined -- generalizing these methods to broader reasoning domains remains challenging due to limited data, the lack of verifiable reward structures, and diverse task requirements. In this work, we propose NEMOTRON-CROSSTHINK, a framework that systematically incorporates multi-domain corpora, including both synthetic and real-world question-answer pairs, into RL training to improve generalization across diverse reasoning tasks. NEMOTRON-CROSSTHINK addresses key challenges by (1) incorporating data from varied sources spanning STEM, humanities, social sciences, etc.; (2) applying structured templates (e.g., multiple-choice and open-ended) to control answer-space complexity; (3) filtering for verifiable answers; and (4) optimizing data blending strategies that utilizes data from multiple sources effectively. Our approach enables scalable and verifiable reward modeling beyond mathematics and demonstrates improved accuracies on both math (MATH-500: +30.1%, AMC23:+27.5%) and non-math reasoning benchmarks (MMLU-PRO: +12.8%, GPQA-DIAMOND: +11.3%, AGIEVAL: +15.1%, SUPERGPQA: +3.8%). Moreover, NEMOTRON-CROSSTHINK exhibits significantly improved response efficiency -- using 28% fewer tokens for correct answers -- highlighting more focused and effective reasoning. Through NEMOTRON-CROSSTHINK, we demonstrate that integrating multi-domain, multi-format data in RL leads to more accurate, efficient, and generalizable LLMs.

Summary

AI-Generated Summary

PDF64April 22, 2025