Núcleo de Raciocínio: Um Ambiente de RL Escalável para Raciocínio Simbólico em LLMs
Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning
September 22, 2025
Autores: Valentin Lacombe, Valentin Quesnel, Damien Sileo
cs.AI
Resumo
Apresentamos o Reasoning Core, um novo ambiente escalável para Aprendizado por Reforço com Recompensas Verificáveis (RLVR), projetado para avançar o raciocínio simbólico fundamental em Modelos de Linguagem de Grande Escala (LLMs). Diferente de benchmarks existentes que se concentram em jogos ou quebra-cabeças isolados, o Reasoning Core gera problemas de forma procedural em domínios formais essenciais, incluindo planejamento PDDL, lógica de primeira ordem, análise de gramáticas livres de contexto, raciocínio causal e resolução de equações de sistemas. O ambiente é construído sobre princípios-chave de design, como distribuições de problemas de alta generalidade, verificação por meio de ferramentas externas e controle contínuo de dificuldade, que juntos fornecem um suprimento virtualmente infinito de instâncias de treinamento inéditas. Avaliações iniciais zero-shot com LLMs de ponta confirmam a dificuldade das tarefas do Reasoning Core, posicionando-o como um recurso promissor para aprimorar as capacidades de raciocínio de modelos futuros.
English
We introduce Reasoning Core, a new scalable environment for Reinforcement
Learning with Verifiable Rewards (RLVR), designed to advance foundational
symbolic reasoning in Large Language Models (LLMs). Unlike existing benchmarks
that focus on games or isolated puzzles, Reasoning Core procedurally generates
problems across core formal domains, including PDDL planning, first-order
logic, context-free grammar parsing, causal reasoning, and system equation
solving. The environment is built on key design principles of high-generality
problem distributions, verification via external tools, and continuous
difficulty control, which together provide a virtually infinite supply of novel
training instances. Initial zero-shot evaluations with frontier LLMs confirm
the difficulty of Reasoning Core's tasks, positioning it as a promising
resource to improve the reasoning capabilities of future models.