Núcleo de Raciocínio: Um Ambiente de RL Escalável para Raciocínio Simbólico em LLMs

Resumo

Apresentamos o Reasoning Core, um novo ambiente escalável para Aprendizado por Reforço com Recompensas Verificáveis (RLVR), projetado para avançar o raciocínio simbólico fundamental em Modelos de Linguagem de Grande Escala (LLMs). Diferente de benchmarks existentes que se concentram em jogos ou quebra-cabeças isolados, o Reasoning Core gera problemas de forma procedural em domínios formais essenciais, incluindo planejamento PDDL, lógica de primeira ordem, análise de gramáticas livres de contexto, raciocínio causal e resolução de equações de sistemas. O ambiente é construído sobre princípios-chave de design, como distribuições de problemas de alta generalidade, verificação por meio de ferramentas externas e controle contínuo de dificuldade, que juntos fornecem um suprimento virtualmente infinito de instâncias de treinamento inéditas. Avaliações iniciais zero-shot com LLMs de ponta confirmam a dificuldade das tarefas do Reasoning Core, posicionando-o como um recurso promissor para aprimorar as capacidades de raciocínio de modelos futuros.

English

We introduce Reasoning Core, a new scalable environment for Reinforcement Learning with Verifiable Rewards (RLVR), designed to advance foundational symbolic reasoning in Large Language Models (LLMs). Unlike existing benchmarks that focus on games or isolated puzzles, Reasoning Core procedurally generates problems across core formal domains, including PDDL planning, first-order logic, context-free grammar parsing, causal reasoning, and system equation solving. The environment is built on key design principles of high-generality problem distributions, verification via external tools, and continuous difficulty control, which together provide a virtually infinite supply of novel training instances. Initial zero-shot evaluations with frontier LLMs confirm the difficulty of Reasoning Core's tasks, positioning it as a promising resource to improve the reasoning capabilities of future models.

Núcleo de Raciocínio: Um Ambiente de RL Escalável para Raciocínio Simbólico em LLMs

Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning

Resumo

Support