General-Reasoner: Fortschritt in der Argumentationsfähigkeit von LLMs über alle Domänen hinweg
General-Reasoner: Advancing LLM Reasoning Across All Domains
May 20, 2025
Autoren: Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun Ma, Wenhu Chen
cs.AI
Zusammenfassung
Reinforcement Learning (RL) hat in jüngster Zeit ein starkes Potenzial bei der Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens gezeigt. Insbesondere das von Deepseek-R1-Zero eingeführte „Zero“-Reinforcement Learning ermöglicht das direkte RL-Training von Basis-LLMs, ohne auf eine Zwischenstufe des überwachten Feinabstimmens angewiesen zu sein. Trotz dieser Fortschritte konzentrieren sich aktuelle Arbeiten zum LLM-Denken hauptsächlich auf mathematische und Programmierdomänen, was größtenteils auf die Datenfülle und die einfache Überprüfbarkeit von Antworten zurückzuführen ist. Dies schränkt die Anwendbarkeit und Generalisierbarkeit solcher Modelle auf breitere Domänen ein, in denen Fragen oft vielfältige Antwortdarstellungen aufweisen und Daten knapper sind. In diesem Artikel schlagen wir General-Reasoner vor, ein neuartiges Trainingsparadigma, das darauf abzielt, die Denkfähigkeiten von LLMs über diverse Domänen hinweg zu verbessern. Unsere wesentlichen Beiträge umfassen: (1) die Erstellung eines groß angelegten, hochwertigen Datensatzes von Fragen mit überprüfbaren Antworten, die durch Web-Crawling zusammengestellt wurden und ein breites Spektrum an Disziplinen abdecken; und (2) die Entwicklung eines generativen modellbasierten Antwortprüfers, der die traditionelle regelbasierte Überprüfung durch die Fähigkeiten zur Kettenlogik und Kontextbewusstheit ersetzt. Wir trainieren eine Reihe von Modellen und evaluieren sie anhand einer Vielzahl von Datensätzen, die breite Domänen wie Physik, Chemie, Finanzen, Elektronik usw. abdecken. Unsere umfassende Bewertung über diese 12 Benchmarks (z. B. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH und MATH AMC) zeigt, dass General-Reasoner bestehende Baseline-Methoden übertrifft und dabei eine robuste und generalisierbare Denkleistung erzielt, während es gleichzeitig eine überlegene Effektivität bei mathematischen Denkaufgaben beibehält.
English
Reinforcement learning (RL) has recently demonstrated strong potential in
enhancing the reasoning capabilities of large language models (LLMs).
Particularly, the "Zero" reinforcement learning introduced by Deepseek-R1-Zero,
enables direct RL training of base LLMs without relying on an intermediate
supervised fine-tuning stage. Despite these advancements, current works for LLM
reasoning mainly focus on mathematical and coding domains, largely due to data
abundance and the ease of answer verification. This limits the applicability
and generalization of such models to broader domains, where questions often
have diverse answer representations, and data is more scarce. In this paper, we
propose General-Reasoner, a novel training paradigm designed to enhance LLM
reasoning capabilities across diverse domains. Our key contributions include:
(1) constructing a large-scale, high-quality dataset of questions with
verifiable answers curated by web crawling, covering a wide range of
disciplines; and (2) developing a generative model-based answer verifier, which
replaces traditional rule-based verification with the capability of
chain-of-thought and context-awareness. We train a series of models and
evaluate them on a wide range of datasets covering wide domains like physics,
chemistry, finance, electronics etc. Our comprehensive evaluation across these
12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC)
demonstrates that General-Reasoner outperforms existing baseline methods,
achieving robust and generalizable reasoning performance while maintaining
superior effectiveness in mathematical reasoning tasks.Summary
AI-Generated Summary