Reasoning Core: Een schaalbare RL-omgeving voor symbolisch redeneren met LLM's
Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning
September 22, 2025
Auteurs: Valentin Lacombe, Valentin Quesnel, Damien Sileo
cs.AI
Samenvatting
We introduceren Reasoning Core, een nieuwe schaalbare omgeving voor Reinforcement Learning met Verifieerbare Beloningen (RLVR), ontworpen om fundamenteel symbolisch redeneren in Grote Taalmodellen (LLMs) te bevorderen. In tegenstelling tot bestaande benchmarks die zich richten op spellen of geïsoleerde puzzels, genereert Reasoning Core procedureel problemen binnen kernformele domeinen, waaronder PDDL-planning, eerstegraadslogica, contextvrije grammatica-parsing, causaal redeneren en het oplossen van systeemvergelijkingen. De omgeving is gebouwd op belangrijke ontwerpprincipes van hooggenerieke probleemdistributies, verificatie via externe tools en continue moeilijkheidscontrole, die samen zorgen voor een vrijwel oneindige voorraad van nieuwe trainingsinstanties. Initiële zero-shot-evaluaties met toonaangevende LLMs bevestigen de uitdaging van de taken in Reasoning Core, wat het positioneert als een veelbelovende bron om de redeneervaardigheden van toekomstige modellen te verbeteren.
English
We introduce Reasoning Core, a new scalable environment for Reinforcement
Learning with Verifiable Rewards (RLVR), designed to advance foundational
symbolic reasoning in Large Language Models (LLMs). Unlike existing benchmarks
that focus on games or isolated puzzles, Reasoning Core procedurally generates
problems across core formal domains, including PDDL planning, first-order
logic, context-free grammar parsing, causal reasoning, and system equation
solving. The environment is built on key design principles of high-generality
problem distributions, verification via external tools, and continuous
difficulty control, which together provide a virtually infinite supply of novel
training instances. Initial zero-shot evaluations with frontier LLMs confirm
the difficulty of Reasoning Core's tasks, positioning it as a promising
resource to improve the reasoning capabilities of future models.