ChatPaper.aiChatPaper

Reasoning Core: Масштабируемая среда для обучения с подкреплением, ориентированная на символьные рассуждения в языковых моделях

Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning

September 22, 2025
Авторы: Valentin Lacombe, Valentin Quesnel, Damien Sileo
cs.AI

Аннотация

Мы представляем Reasoning Core — новую масштабируемую среду для обучения с подкреплением с верифицируемыми наградами (RLVR), разработанную для продвижения фундаментальных навыков символического рассуждения в крупных языковых моделях (LLM). В отличие от существующих тестов, которые сосредоточены на играх или изолированных головоломках, Reasoning Core процедурно генерирует задачи в ключевых формальных областях, включая планирование в PDDL, логику первого порядка, синтаксический анализ контекстно-свободных грамматик, причинно-следственные рассуждения и решение систем уравнений. Среда построена на ключевых принципах проектирования: распределения задач высокой общности, верификация с использованием внешних инструментов и непрерывный контроль сложности, что вместе обеспечивает практически бесконечный запас новых обучающих примеров. Первоначальные оценки с нулевым обучением на передовых LLM подтверждают сложность задач Reasoning Core, что делает её перспективным ресурсом для улучшения способностей к рассуждению у будущих моделей.
English
We introduce Reasoning Core, a new scalable environment for Reinforcement Learning with Verifiable Rewards (RLVR), designed to advance foundational symbolic reasoning in Large Language Models (LLMs). Unlike existing benchmarks that focus on games or isolated puzzles, Reasoning Core procedurally generates problems across core formal domains, including PDDL planning, first-order logic, context-free grammar parsing, causal reasoning, and system equation solving. The environment is built on key design principles of high-generality problem distributions, verification via external tools, and continuous difficulty control, which together provide a virtually infinite supply of novel training instances. Initial zero-shot evaluations with frontier LLMs confirm the difficulty of Reasoning Core's tasks, positioning it as a promising resource to improve the reasoning capabilities of future models.
PDF42September 23, 2025