Reasoning Core : Un environnement RL évolutif pour le raisonnement symbolique des LLM
Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning
September 22, 2025
papers.authors: Valentin Lacombe, Valentin Quesnel, Damien Sileo
cs.AI
papers.abstract
Nous présentons Reasoning Core, un nouvel environnement évolutif pour l'apprentissage par renforcement avec récompenses vérifiables (RLVR), conçu pour faire progresser le raisonnement symbolique fondamental dans les grands modèles de langage (LLM). Contrairement aux benchmarks existants qui se concentrent sur des jeux ou des puzzles isolés, Reasoning Core génère de manière procédurale des problèmes couvrant des domaines formels fondamentaux, notamment la planification PDDL, la logique du premier ordre, l'analyse syntaxique de grammaires hors-contexte, le raisonnement causal et la résolution d'équations de systèmes. L'environnement repose sur des principes de conception clés : des distributions de problèmes à haute généralité, une vérification via des outils externes et un contrôle continu de la difficulté, ce qui fournit ensemble une source virtuellement infinie de nouvelles instances d'entraînement. Les évaluations initiales en zero-shot avec des LLM de pointe confirment la difficulté des tâches de Reasoning Core, le positionnant comme une ressource prometteuse pour améliorer les capacités de raisonnement des futurs modèles.
English
We introduce Reasoning Core, a new scalable environment for Reinforcement
Learning with Verifiable Rewards (RLVR), designed to advance foundational
symbolic reasoning in Large Language Models (LLMs). Unlike existing benchmarks
that focus on games or isolated puzzles, Reasoning Core procedurally generates
problems across core formal domains, including PDDL planning, first-order
logic, context-free grammar parsing, causal reasoning, and system equation
solving. The environment is built on key design principles of high-generality
problem distributions, verification via external tools, and continuous
difficulty control, which together provide a virtually infinite supply of novel
training instances. Initial zero-shot evaluations with frontier LLMs confirm
the difficulty of Reasoning Core's tasks, positioning it as a promising
resource to improve the reasoning capabilities of future models.