ChatPaper.aiChatPaper

ジェネラル・リーズナー:全領域におけるLLM推論の進展

General-Reasoner: Advancing LLM Reasoning Across All Domains

May 20, 2025
著者: Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun Ma, Wenhu Chen
cs.AI

要旨

強化学習(Reinforcement Learning, RL)は最近、大規模言語モデル(Large Language Models, LLMs)の推論能力を向上させる上で大きな可能性を示している。特に、Deepseek-R1-Zeroによって導入された「Zero」強化学習は、中間的な教師あり微調整段階に依存せずに、ベースとなるLLMsを直接RLで訓練することを可能にしている。これらの進展にもかかわらず、現在のLLM推論に関する研究は主に数学やコーディング領域に焦点を当てており、これはデータの豊富さと回答検証の容易さに起因している。これにより、回答表現が多様でデータがより希少な広範な領域へのモデルの適用性と汎用性が制限されている。本論文では、多様な領域にわたるLLMの推論能力を向上させるために設計された新しい訓練パラダイムであるGeneral-Reasonerを提案する。我々の主な貢献は以下の通りである:(1) ウェブクローリングによって収集された検証可能な回答を伴う大規模で高品質な質問データセットを構築し、幅広い学問領域をカバーすること、(2) 従来のルールベースの検証を、連鎖思考(chain-of-thought)と文脈認識能力を備えた生成モデルベースの回答検証器に置き換えることである。我々は一連のモデルを訓練し、物理学、化学、金融、電子工学などの広範な領域をカバーする多様なデータセットで評価を行った。MMLU-Pro、GPQA、SuperGPQA、TheoremQA、BBEH、MATH AMCなどの12のベンチマークにわたる包括的な評価により、General-Reasonerが既存のベースライン手法を上回り、数学的推論タスクにおいても優れた効果を維持しながら、堅牢で汎用性の高い推論性能を達成することが示された。
English
Reinforcement learning (RL) has recently demonstrated strong potential in enhancing the reasoning capabilities of large language models (LLMs). Particularly, the "Zero" reinforcement learning introduced by Deepseek-R1-Zero, enables direct RL training of base LLMs without relying on an intermediate supervised fine-tuning stage. Despite these advancements, current works for LLM reasoning mainly focus on mathematical and coding domains, largely due to data abundance and the ease of answer verification. This limits the applicability and generalization of such models to broader domains, where questions often have diverse answer representations, and data is more scarce. In this paper, we propose General-Reasoner, a novel training paradigm designed to enhance LLM reasoning capabilities across diverse domains. Our key contributions include: (1) constructing a large-scale, high-quality dataset of questions with verifiable answers curated by web crawling, covering a wide range of disciplines; and (2) developing a generative model-based answer verifier, which replaces traditional rule-based verification with the capability of chain-of-thought and context-awareness. We train a series of models and evaluate them on a wide range of datasets covering wide domains like physics, chemistry, finance, electronics etc. Our comprehensive evaluation across these 12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC) demonstrates that General-Reasoner outperforms existing baseline methods, achieving robust and generalizable reasoning performance while maintaining superior effectiveness in mathematical reasoning tasks.

Summary

AI-Generated Summary

PDF111May 21, 2025