NEMOTRON-CROSSTHINK: Escalando el autoaprendizaje más allá del razonamiento matemático
NEMOTRON-CROSSTHINK: Scaling Self-Learning beyond Math Reasoning
April 15, 2025
Autores: Syeda Nahida Akter, Shrimai Prabhumoye, Matvei Novikov, Seungju Han, Ying Lin, Evelina Bakhturi, Eric Nyberg, Yejin Choi, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento sólidas, especialmente cuando se mejoran mediante Aprendizaje por Refuerzo (RL). Si bien trabajos previos han aplicado con éxito RL al razonamiento matemático —donde las reglas y la corrección están bien definidas—, generalizar estos métodos a dominios de razonamiento más amplios sigue siendo un desafío debido a la limitación de datos, la falta de estructuras de recompensa verificables y los diversos requisitos de las tareas. En este trabajo, proponemos NEMOTRON-CROSSTHINK, un marco que incorpora sistemáticamente corpus de múltiples dominios, incluyendo pares de preguntas y respuestas tanto sintéticas como del mundo real, en el entrenamiento de RL para mejorar la generalización en diversas tareas de razonamiento. NEMOTRON-CROSSTHINK aborda desafíos clave mediante (1) la incorporación de datos de diversas fuentes que abarcan STEM, humanidades, ciencias sociales, etc.; (2) la aplicación de plantillas estructuradas (por ejemplo, opción múltiple y preguntas abiertas) para controlar la complejidad del espacio de respuestas; (3) el filtrado de respuestas verificables; y (4) la optimización de estrategias de mezcla de datos que utilizan eficazmente información de múltiples fuentes. Nuestro enfoque permite un modelado de recompensas escalable y verificable más allá de las matemáticas y demuestra mejoras en precisión tanto en benchmarks de razonamiento matemático (MATH-500: +30.1%, AMC23: +27.5%) como no matemáticos (MMLU-PRO: +12.8%, GPQA-DIAMOND: +11.3%, AGIEVAL: +15.1%, SUPERGPQA: +3.8%). Además, NEMOTRON-CROSSTHINK exhibe una eficiencia de respuesta significativamente mejorada —utilizando un 28% menos de tokens para respuestas correctas—, destacando un razonamiento más enfocado y efectivo. A través de NEMOTRON-CROSSTHINK, demostramos que la integración de datos de múltiples dominios y formatos en RL conduce a LLMs más precisos, eficientes y generalizables.
English
Large Language Models (LLMs) have shown strong reasoning capabilities,
particularly when enhanced through Reinforcement Learning (RL). While prior
work has successfully applied RL to mathematical reasoning -- where rules and
correctness are well-defined -- generalizing these methods to broader reasoning
domains remains challenging due to limited data, the lack of verifiable reward
structures, and diverse task requirements. In this work, we propose
NEMOTRON-CROSSTHINK, a framework that systematically incorporates multi-domain
corpora, including both synthetic and real-world question-answer pairs, into RL
training to improve generalization across diverse reasoning tasks.
NEMOTRON-CROSSTHINK addresses key challenges by (1) incorporating data from
varied sources spanning STEM, humanities, social sciences, etc.; (2) applying
structured templates (e.g., multiple-choice and open-ended) to control
answer-space complexity; (3) filtering for verifiable answers; and (4)
optimizing data blending strategies that utilizes data from multiple sources
effectively. Our approach enables scalable and verifiable reward modeling
beyond mathematics and demonstrates improved accuracies on both math (MATH-500:
+30.1%, AMC23:+27.5%) and non-math reasoning benchmarks (MMLU-PRO: +12.8%,
GPQA-DIAMOND: +11.3%, AGIEVAL: +15.1%, SUPERGPQA: +3.8%). Moreover,
NEMOTRON-CROSSTHINK exhibits significantly improved response efficiency --
using 28% fewer tokens for correct answers -- highlighting more focused and
effective reasoning. Through NEMOTRON-CROSSTHINK, we demonstrate that
integrating multi-domain, multi-format data in RL leads to more accurate,
efficient, and generalizable LLMs.Summary
AI-Generated Summary