General-Reasoner : Faire progresser le raisonnement des LLM dans tous les domaines
General-Reasoner: Advancing LLM Reasoning Across All Domains
May 20, 2025
Auteurs: Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun Ma, Wenhu Chen
cs.AI
Résumé
L'apprentissage par renforcement (RL) a récemment démontré un fort potentiel pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs). En particulier, le renforcement learning "Zero" introduit par Deepseek-R1-Zero permet un entraînement direct des LLMs de base sans recourir à une étape intermédiaire de fine-tuning supervisé. Malgré ces avancées, les travaux actuels sur le raisonnement des LLMs se concentrent principalement sur les domaines mathématiques et de programmation, en grande partie en raison de l'abondance des données et de la facilité de vérification des réponses. Cela limite l'applicabilité et la généralisation de ces modèles à des domaines plus vastes, où les questions ont souvent des représentations de réponses variées et où les données sont plus rares. Dans cet article, nous proposons General-Reasoner, un nouveau paradigme d'entraînement conçu pour améliorer les capacités de raisonnement des LLMs dans divers domaines. Nos contributions clés incluent : (1) la construction d'un ensemble de données à grande échelle et de haute qualité de questions avec des réponses vérifiables, obtenues par web crawling et couvrant un large éventail de disciplines ; et (2) le développement d'un vérificateur de réponses basé sur un modèle génératif, qui remplace la vérification traditionnelle basée sur des règles par la capacité de chaîne de pensée et de conscience contextuelle. Nous entraînons une série de modèles et les évaluons sur un large éventail de jeux de données couvrant des domaines variés comme la physique, la chimie, la finance, l'électronique, etc. Notre évaluation exhaustive sur ces 12 benchmarks (par exemple, MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH et MATH AMC) démontre que General-Reasoner surpasse les méthodes de référence existantes, atteignant une performance de raisonnement robuste et généralisable tout en maintenant une efficacité supérieure dans les tâches de raisonnement mathématique.
English
Reinforcement learning (RL) has recently demonstrated strong potential in
enhancing the reasoning capabilities of large language models (LLMs).
Particularly, the "Zero" reinforcement learning introduced by Deepseek-R1-Zero,
enables direct RL training of base LLMs without relying on an intermediate
supervised fine-tuning stage. Despite these advancements, current works for LLM
reasoning mainly focus on mathematical and coding domains, largely due to data
abundance and the ease of answer verification. This limits the applicability
and generalization of such models to broader domains, where questions often
have diverse answer representations, and data is more scarce. In this paper, we
propose General-Reasoner, a novel training paradigm designed to enhance LLM
reasoning capabilities across diverse domains. Our key contributions include:
(1) constructing a large-scale, high-quality dataset of questions with
verifiable answers curated by web crawling, covering a wide range of
disciplines; and (2) developing a generative model-based answer verifier, which
replaces traditional rule-based verification with the capability of
chain-of-thought and context-awareness. We train a series of models and
evaluate them on a wide range of datasets covering wide domains like physics,
chemistry, finance, electronics etc. Our comprehensive evaluation across these
12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC)
demonstrates that General-Reasoner outperforms existing baseline methods,
achieving robust and generalizable reasoning performance while maintaining
superior effectiveness in mathematical reasoning tasks.Summary
AI-Generated Summary