General-Reasoner: Avanzando en el Razonamiento de los Modelos de Lenguaje de Gran Escala en Todos los Dominios
General-Reasoner: Advancing LLM Reasoning Across All Domains
May 20, 2025
Autores: Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun Ma, Wenhu Chen
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha demostrado recientemente un gran potencial para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). En particular, el "Zero" aprendizaje por refuerzo introducido por Deepseek-R1-Zero permite el entrenamiento directo de RL en LLMs base sin depender de una etapa intermedia de ajuste fino supervisado. A pesar de estos avances, los trabajos actuales sobre el razonamiento de LLMs se centran principalmente en dominios matemáticos y de programación, en gran parte debido a la abundancia de datos y la facilidad de verificación de respuestas. Esto limita la aplicabilidad y generalización de dichos modelos a dominios más amplios, donde las preguntas suelen tener representaciones de respuestas diversas y los datos son más escasos. En este artículo, proponemos General-Reasoner, un paradigma de entrenamiento novedoso diseñado para mejorar las capacidades de razonamiento de los LLMs en diversos dominios. Nuestras contribuciones clave incluyen: (1) la construcción de un conjunto de datos a gran escala y de alta calidad de preguntas con respuestas verificables, recopiladas mediante rastreo web, que abarca una amplia gama de disciplinas; y (2) el desarrollo de un verificador de respuestas basado en modelos generativos, que reemplaza la verificación tradicional basada en reglas con la capacidad de cadena de pensamiento y conciencia contextual. Entrenamos una serie de modelos y los evaluamos en una amplia gama de conjuntos de datos que cubren dominios como física, química, finanzas, electrónica, etc. Nuestra evaluación exhaustiva en estos 12 puntos de referencia (por ejemplo, MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH y MATH AMC) demuestra que General-Reasoner supera los métodos de referencia existentes, logrando un rendimiento de razonamiento robusto y generalizable mientras mantiene una eficacia superior en tareas de razonamiento matemático.
English
Reinforcement learning (RL) has recently demonstrated strong potential in
enhancing the reasoning capabilities of large language models (LLMs).
Particularly, the "Zero" reinforcement learning introduced by Deepseek-R1-Zero,
enables direct RL training of base LLMs without relying on an intermediate
supervised fine-tuning stage. Despite these advancements, current works for LLM
reasoning mainly focus on mathematical and coding domains, largely due to data
abundance and the ease of answer verification. This limits the applicability
and generalization of such models to broader domains, where questions often
have diverse answer representations, and data is more scarce. In this paper, we
propose General-Reasoner, a novel training paradigm designed to enhance LLM
reasoning capabilities across diverse domains. Our key contributions include:
(1) constructing a large-scale, high-quality dataset of questions with
verifiable answers curated by web crawling, covering a wide range of
disciplines; and (2) developing a generative model-based answer verifier, which
replaces traditional rule-based verification with the capability of
chain-of-thought and context-awareness. We train a series of models and
evaluate them on a wide range of datasets covering wide domains like physics,
chemistry, finance, electronics etc. Our comprehensive evaluation across these
12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC)
demonstrates that General-Reasoner outperforms existing baseline methods,
achieving robust and generalizable reasoning performance while maintaining
superior effectiveness in mathematical reasoning tasks.Summary
AI-Generated Summary