General-Reasoner: Fortschritt in der Argumentationsfähigkeit von LLMs über alle Domänen hinweg

papers.abstract

Reinforcement Learning (RL) hat in jüngster Zeit ein starkes Potenzial bei der Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens gezeigt. Insbesondere das von Deepseek-R1-Zero eingeführte „Zero“-Reinforcement Learning ermöglicht das direkte RL-Training von Basis-LLMs, ohne auf eine Zwischenstufe des überwachten Feinabstimmens angewiesen zu sein. Trotz dieser Fortschritte konzentrieren sich aktuelle Arbeiten zum LLM-Denken hauptsächlich auf mathematische und Programmierdomänen, was größtenteils auf die Datenfülle und die einfache Überprüfbarkeit von Antworten zurückzuführen ist. Dies schränkt die Anwendbarkeit und Generalisierbarkeit solcher Modelle auf breitere Domänen ein, in denen Fragen oft vielfältige Antwortdarstellungen aufweisen und Daten knapper sind. In diesem Artikel schlagen wir General-Reasoner vor, ein neuartiges Trainingsparadigma, das darauf abzielt, die Denkfähigkeiten von LLMs über diverse Domänen hinweg zu verbessern. Unsere wesentlichen Beiträge umfassen: (1) die Erstellung eines groß angelegten, hochwertigen Datensatzes von Fragen mit überprüfbaren Antworten, die durch Web-Crawling zusammengestellt wurden und ein breites Spektrum an Disziplinen abdecken; und (2) die Entwicklung eines generativen modellbasierten Antwortprüfers, der die traditionelle regelbasierte Überprüfung durch die Fähigkeiten zur Kettenlogik und Kontextbewusstheit ersetzt. Wir trainieren eine Reihe von Modellen und evaluieren sie anhand einer Vielzahl von Datensätzen, die breite Domänen wie Physik, Chemie, Finanzen, Elektronik usw. abdecken. Unsere umfassende Bewertung über diese 12 Benchmarks (z. B. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH und MATH AMC) zeigt, dass General-Reasoner bestehende Baseline-Methoden übertrifft und dabei eine robuste und generalisierbare Denkleistung erzielt, während es gleichzeitig eine überlegene Effektivität bei mathematischen Denkaufgaben beibehält.

English

Reinforcement learning (RL) has recently demonstrated strong potential in enhancing the reasoning capabilities of large language models (LLMs). Particularly, the "Zero" reinforcement learning introduced by Deepseek-R1-Zero, enables direct RL training of base LLMs without relying on an intermediate supervised fine-tuning stage. Despite these advancements, current works for LLM reasoning mainly focus on mathematical and coding domains, largely due to data abundance and the ease of answer verification. This limits the applicability and generalization of such models to broader domains, where questions often have diverse answer representations, and data is more scarce. In this paper, we propose General-Reasoner, a novel training paradigm designed to enhance LLM reasoning capabilities across diverse domains. Our key contributions include: (1) constructing a large-scale, high-quality dataset of questions with verifiable answers curated by web crawling, covering a wide range of disciplines; and (2) developing a generative model-based answer verifier, which replaces traditional rule-based verification with the capability of chain-of-thought and context-awareness. We train a series of models and evaluate them on a wide range of datasets covering wide domains like physics, chemistry, finance, electronics etc. Our comprehensive evaluation across these 12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC) demonstrates that General-Reasoner outperforms existing baseline methods, achieving robust and generalizable reasoning performance while maintaining superior effectiveness in mathematical reasoning tasks.

General-Reasoner: Fortschritt in der Argumentationsfähigkeit von LLMs über alle Domänen hinweg

General-Reasoner: Advancing LLM Reasoning Across All Domains

papers.abstract

Support