General-Reasoner: Verbetering van LLM-redenering in alle domeinen
General-Reasoner: Advancing LLM Reasoning Across All Domains
May 20, 2025
Auteurs: Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun Ma, Wenhu Chen
cs.AI
Samenvatting
Reinforcement learning (RL) heeft recentelijk sterk potentieel getoond in het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs). Met name de "Zero" reinforcement learning, geïntroduceerd door Deepseek-R1-Zero, maakt directe RL-training van basis-LLMs mogelijk zonder te vertrouwen op een tussenliggende fase van supervised fine-tuning. Ondanks deze vooruitgang richten huidige werken voor LLM-redenering zich voornamelijk op wiskundige en programmeerdomeinen, grotendeels vanwege de overvloed aan data en het gemak van antwoordverificatie. Dit beperkt de toepasbaarheid en generalisatie van dergelijke modellen voor bredere domeinen, waar vragen vaak diverse antwoordrepresentaties hebben en data schaarser is. In dit artikel stellen we General-Reasoner voor, een nieuwe trainingsparadigma ontworpen om de redeneervaardigheden van LLMs over diverse domeinen te verbeteren. Onze belangrijkste bijdragen omvatten: (1) het construeren van een grootschalige, hoogwaardige dataset van vragen met verifieerbare antwoorden, samengesteld door webcrawling, die een breed scala aan disciplines bestrijkt; en (2) het ontwikkelen van een op generatieve modellen gebaseerde antwoordverifier, die traditionele regelgebaseerde verificatie vervangt met de mogelijkheid van chain-of-thought en contextbewustzijn. We trainen een reeks modellen en evalueren deze op een breed scala aan datasets die domeinen zoals natuurkunde, scheikunde, financiën, elektronica, enz. omvatten. Onze uitgebreide evaluatie over deze 12 benchmarks (bijv. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH en MATH AMC) toont aan dat General-Reasoner bestaande baseline-methoden overtreft, waarbij het robuuste en generaliseerbare redeneerprestaties bereikt terwijl het superieure effectiviteit behoudt in wiskundige redeneertaken.
English
Reinforcement learning (RL) has recently demonstrated strong potential in
enhancing the reasoning capabilities of large language models (LLMs).
Particularly, the "Zero" reinforcement learning introduced by Deepseek-R1-Zero,
enables direct RL training of base LLMs without relying on an intermediate
supervised fine-tuning stage. Despite these advancements, current works for LLM
reasoning mainly focus on mathematical and coding domains, largely due to data
abundance and the ease of answer verification. This limits the applicability
and generalization of such models to broader domains, where questions often
have diverse answer representations, and data is more scarce. In this paper, we
propose General-Reasoner, a novel training paradigm designed to enhance LLM
reasoning capabilities across diverse domains. Our key contributions include:
(1) constructing a large-scale, high-quality dataset of questions with
verifiable answers curated by web crawling, covering a wide range of
disciplines; and (2) developing a generative model-based answer verifier, which
replaces traditional rule-based verification with the capability of
chain-of-thought and context-awareness. We train a series of models and
evaluate them on a wide range of datasets covering wide domains like physics,
chemistry, finance, electronics etc. Our comprehensive evaluation across these
12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC)
demonstrates that General-Reasoner outperforms existing baseline methods,
achieving robust and generalizable reasoning performance while maintaining
superior effectiveness in mathematical reasoning tasks.Summary
AI-Generated Summary