General-Reasoner: Развитие способностей к рассуждению в языковых моделях во всех областях
General-Reasoner: Advancing LLM Reasoning Across All Domains
May 20, 2025
Авторы: Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun Ma, Wenhu Chen
cs.AI
Аннотация
Обучение с подкреплением (RL) недавно продемонстрировало значительный потенциал в улучшении способностей к рассуждению у крупных языковых моделей (LLM). В частности, метод "Zero" обучения с подкреплением, представленный Deepseek-R1-Zero, позволяет проводить прямое RL-обучение базовых LLM без необходимости промежуточного этапа контролируемой тонкой настройки. Несмотря на эти достижения, текущие исследования в области рассуждений LLM в основном сосредоточены на математических и программистских задачах, что во многом обусловлено обилием данных и простотой проверки ответов. Это ограничивает применимость и обобщаемость таких моделей в более широких областях, где вопросы часто имеют разнообразные представления ответов, а данные более скудны. В данной статье мы предлагаем General-Reasoner, новую парадигму обучения, разработанную для улучшения способностей LLM к рассуждениям в различных областях. Наши ключевые вклады включают: (1) создание крупномасштабного, высококачественного набора данных вопросов с проверяемыми ответами, собранных с помощью веб-краулинга и охватывающих широкий спектр дисциплин; и (2) разработку генеративной модели для проверки ответов, которая заменяет традиционные правила проверки на возможности цепочки рассуждений и контекстного осознания. Мы обучаем серию моделей и оцениваем их на широком спектре наборов данных, охватывающих такие области, как физика, химия, финансы, электроника и другие. Наше всестороннее тестирование на 12 бенчмарках (например, MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH и MATH AMC) демонстрирует, что General-Reasoner превосходит существующие базовые методы, достигая устойчивой и обобщаемой производительности в задачах рассуждений, сохраняя при этом превосходную эффективность в математических задачах.
English
Reinforcement learning (RL) has recently demonstrated strong potential in
enhancing the reasoning capabilities of large language models (LLMs).
Particularly, the "Zero" reinforcement learning introduced by Deepseek-R1-Zero,
enables direct RL training of base LLMs without relying on an intermediate
supervised fine-tuning stage. Despite these advancements, current works for LLM
reasoning mainly focus on mathematical and coding domains, largely due to data
abundance and the ease of answer verification. This limits the applicability
and generalization of such models to broader domains, where questions often
have diverse answer representations, and data is more scarce. In this paper, we
propose General-Reasoner, a novel training paradigm designed to enhance LLM
reasoning capabilities across diverse domains. Our key contributions include:
(1) constructing a large-scale, high-quality dataset of questions with
verifiable answers curated by web crawling, covering a wide range of
disciplines; and (2) developing a generative model-based answer verifier, which
replaces traditional rule-based verification with the capability of
chain-of-thought and context-awareness. We train a series of models and
evaluate them on a wide range of datasets covering wide domains like physics,
chemistry, finance, electronics etc. Our comprehensive evaluation across these
12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC)
demonstrates that General-Reasoner outperforms existing baseline methods,
achieving robust and generalizable reasoning performance while maintaining
superior effectiveness in mathematical reasoning tasks.Summary
AI-Generated Summary