ChatPaper.aiChatPaper

Reasoning Core: Eine skalierbare RL-Umgebung für symbolisches Reasoning mit LLMs

Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning

September 22, 2025
papers.authors: Valentin Lacombe, Valentin Quesnel, Damien Sileo
cs.AI

papers.abstract

Wir stellen Reasoning Core vor, eine neue skalierbare Umgebung für Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), die entwickelt wurde, um das grundlegende symbolische Denken in Large Language Models (LLMs) voranzutreiben. Im Gegensatz zu bestehenden Benchmarks, die sich auf Spiele oder isolierte Rätsel konzentrieren, generiert Reasoning Core prozedural Probleme in zentralen formalen Domänen, darunter PDDL-Planung, Logik erster Ordnung, Parsing von kontextfreien Grammatiken, kausales Schließen und das Lösen von Systemgleichungen. Die Umgebung basiert auf den zentralen Designprinzipien hochgenereller Problemverteilungen, Verifizierung durch externe Tools und kontinuierlicher Schwierigkeitssteuerung, die zusammen eine praktisch unendliche Versorgung mit neuen Trainingsinstanzen bieten. Erste Zero-Shot-Evaluierungen mit führenden LLMs bestätigen die Schwierigkeit der Aufgaben von Reasoning Core und positionieren es als vielversprechende Ressource zur Verbesserung der Denkfähigkeiten zukünftiger Modelle.
English
We introduce Reasoning Core, a new scalable environment for Reinforcement Learning with Verifiable Rewards (RLVR), designed to advance foundational symbolic reasoning in Large Language Models (LLMs). Unlike existing benchmarks that focus on games or isolated puzzles, Reasoning Core procedurally generates problems across core formal domains, including PDDL planning, first-order logic, context-free grammar parsing, causal reasoning, and system equation solving. The environment is built on key design principles of high-generality problem distributions, verification via external tools, and continuous difficulty control, which together provide a virtually infinite supply of novel training instances. Initial zero-shot evaluations with frontier LLMs confirm the difficulty of Reasoning Core's tasks, positioning it as a promising resource to improve the reasoning capabilities of future models.
PDF42September 23, 2025