General-Reasoner: Potenziare il Ragionamento dei Modelli Linguistici su Tutti i Domini
General-Reasoner: Advancing LLM Reasoning Across All Domains
May 20, 2025
Autori: Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun Ma, Wenhu Chen
cs.AI
Abstract
L'apprendimento per rinforzo (Reinforcement Learning, RL) ha recentemente dimostrato un forte potenziale nel migliorare le capacità di ragionamento dei grandi modelli linguistici (Large Language Models, LLMs). In particolare, il "Zero" reinforcement learning introdotto da Deepseek-R1-Zero consente l'addestramento diretto tramite RL dei modelli linguistici di base senza fare affidamento su una fase intermedia di fine-tuning supervisionato. Nonostante questi progressi, i lavori attuali sul ragionamento dei LLM si concentrano principalmente sui domini matematici e di programmazione, in gran parte a causa dell'abbondanza di dati e della facilità di verifica delle risposte. Ciò limita l'applicabilità e la generalizzazione di tali modelli a domini più ampi, dove le domande spesso hanno rappresentazioni di risposta diverse e i dati sono più scarsi. In questo articolo, proponiamo General-Reasoner, un nuovo paradigma di addestramento progettato per migliorare le capacità di ragionamento dei LLM in diversi domini. I nostri contributi principali includono: (1) la costruzione di un dataset su larga scala e di alta qualità di domande con risposte verificabili, curato tramite web crawling e che copre un'ampia gamma di discipline; e (2) lo sviluppo di un verificatore di risposte basato su modelli generativi, che sostituisce la verifica tradizionale basata su regole con la capacità di catena di pensiero (chain-of-thought) e consapevolezza del contesto. Addestriamo una serie di modelli e li valutiamo su un'ampia gamma di dataset che coprono domini come fisica, chimica, finanza, elettronica, ecc. La nostra valutazione completa su questi 12 benchmark (ad esempio MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH e MATH AMC) dimostra che General-Reasoner supera i metodi di base esistenti, raggiungendo prestazioni di ragionamento robuste e generalizzabili mantenendo un'efficacia superiore nei compiti di ragionamento matematico.
English
Reinforcement learning (RL) has recently demonstrated strong potential in
enhancing the reasoning capabilities of large language models (LLMs).
Particularly, the "Zero" reinforcement learning introduced by Deepseek-R1-Zero,
enables direct RL training of base LLMs without relying on an intermediate
supervised fine-tuning stage. Despite these advancements, current works for LLM
reasoning mainly focus on mathematical and coding domains, largely due to data
abundance and the ease of answer verification. This limits the applicability
and generalization of such models to broader domains, where questions often
have diverse answer representations, and data is more scarce. In this paper, we
propose General-Reasoner, a novel training paradigm designed to enhance LLM
reasoning capabilities across diverse domains. Our key contributions include:
(1) constructing a large-scale, high-quality dataset of questions with
verifiable answers curated by web crawling, covering a wide range of
disciplines; and (2) developing a generative model-based answer verifier, which
replaces traditional rule-based verification with the capability of
chain-of-thought and context-awareness. We train a series of models and
evaluate them on a wide range of datasets covering wide domains like physics,
chemistry, finance, electronics etc. Our comprehensive evaluation across these
12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC)
demonstrates that General-Reasoner outperforms existing baseline methods,
achieving robust and generalizable reasoning performance while maintaining
superior effectiveness in mathematical reasoning tasks.