일반 추론기: 모든 영역에서의 LLM 추론 능력 향상
General-Reasoner: Advancing LLM Reasoning Across All Domains
May 20, 2025
저자: Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun Ma, Wenhu Chen
cs.AI
초록
강화 학습(Reinforcement Learning, RL)은 최근 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 데 있어 강력한 잠재력을 보여주고 있다. 특히, Deepseek-R1-Zero가 도입한 "Zero" 강화 학습은 중간 단계의 지도 미세 조정 단계에 의존하지 않고 기본 LLMs를 직접 RL로 훈련할 수 있게 한다. 이러한 발전에도 불구하고, 현재 LLM 추론 연구는 주로 수학 및 코딩 영역에 집중되어 있으며, 이는 데이터의 풍부함과 답변 검증의 용이성 때문이다. 이는 다양한 답변 표현을 가지며 데이터가 더 희소한 광범위한 영역에서의 모델 적용성과 일반화를 제한한다. 본 논문에서는 다양한 영역에서 LLM의 추론 능력을 향상시키기 위해 설계된 새로운 훈련 패러다임인 General-Reasoner를 제안한다. 우리의 주요 기여는 다음과 같다: (1) 웹 크롤링을 통해 검증 가능한 답변과 함께 다양한 학문 분야를 포괄하는 대규모 고품질 질문 데이터셋을 구축하는 것; (2) 전통적인 규칙 기반 검증을 사고의 연쇄(chain-of-thought)와 문맥 인식 능력으로 대체하는 생성 모델 기반 답변 검증기를 개발하는 것. 우리는 일련의 모델을 훈련시키고 물리학, 화학, 금융, 전자공학 등 다양한 영역을 포괄하는 데이터셋에서 평가한다. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH, MATH AMC 등 12개의 벤치마크에 걸친 포괄적인 평가를 통해 General-Reasoner가 기존의 기준 방법들을 능가하며, 수학적 추론 작업에서도 우수한 효과를 유지하면서 견고하고 일반화 가능한 추론 성능을 달성함을 입증한다.
English
Reinforcement learning (RL) has recently demonstrated strong potential in
enhancing the reasoning capabilities of large language models (LLMs).
Particularly, the "Zero" reinforcement learning introduced by Deepseek-R1-Zero,
enables direct RL training of base LLMs without relying on an intermediate
supervised fine-tuning stage. Despite these advancements, current works for LLM
reasoning mainly focus on mathematical and coding domains, largely due to data
abundance and the ease of answer verification. This limits the applicability
and generalization of such models to broader domains, where questions often
have diverse answer representations, and data is more scarce. In this paper, we
propose General-Reasoner, a novel training paradigm designed to enhance LLM
reasoning capabilities across diverse domains. Our key contributions include:
(1) constructing a large-scale, high-quality dataset of questions with
verifiable answers curated by web crawling, covering a wide range of
disciplines; and (2) developing a generative model-based answer verifier, which
replaces traditional rule-based verification with the capability of
chain-of-thought and context-awareness. We train a series of models and
evaluate them on a wide range of datasets covering wide domains like physics,
chemistry, finance, electronics etc. Our comprehensive evaluation across these
12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC)
demonstrates that General-Reasoner outperforms existing baseline methods,
achieving robust and generalizable reasoning performance while maintaining
superior effectiveness in mathematical reasoning tasks.Summary
AI-Generated Summary