Redeneerkern: Een schaalbare suite voor procedurele gegevensegeneratie voor symbolische voor- en natraining

Samenvatting

Training op verifieerbare symbolische data is een veelbelovende manier om de redeneergrens van taalmodellen te verleggen voorbij wat standaard pre-trainingscorpora bieden. Toch baseren bestaande procedurele generators zich vaak op vaste puzzels of sjablonen en bieden ze niet de vereiste distributionele breedte op schaal. Wij introduceren Reasoning Core, een schaalbare suite die procedureel verifieerbare symbolische redeneerdata genereert over kernformele domeinen: PDDL-planning over gerandomiseerde domeinen, eerstelogica met gelijkheid, contextvrije grammatica-parsing en -generatie, causaal redeneren over willekeurige Bayesiaanse netwerken, en stelsels van vergelijkingen. Elke taak is gekoppeld aan een externe solver voor rigoureuze verificatie en staat continue moeilijkheidscontrole toe voor curriculumontwerp. Voorbeelden kunnen optioneel door de solver afgeleide redeneersporen bevatten, wat supervised training vanaf de vroegste pre-trainingsfasen mogelijk maakt, en dezelfde interface biedt verifieerbare beloningsfuncties voor reinforcement learning. Onze experimenten tonen aan dat het mengen van Reasoning Core-data in pre-training de downstream-redenering verbetert, terwijl de kwaliteit van taalmodellering behouden blijft of licht verbetert. Zero-shot evaluaties bevestigen dat deze taken uitdagend zijn voor frontiermodellen zoals GPT-5. De code en data zijn publiekelijk beschikbaar onder de MIT-licentie.

English

Training on verifiable symbolic data is a promising way to expand the reasoning frontier of language models beyond what standard pre-training corpora provide. Yet existing procedural generators often rely on fixed puzzles or templates and do not deliver the distributional breadth needed at scale. We introduce Reasoning Core, a scalable suite that procedurally generates verifiable symbolic reasoning data across core formal domains: PDDL planning over randomized domains, first-order logic with equality, context-free grammar parsing and generation, causal reasoning over random Bayesian networks, and systems of equations. Each task is paired with an external solver for rigorous verification and admits continuous difficulty control for curriculum design. Examples can optionally include solver-derived reasoning traces, enabling supervised training from the earliest pre-training stages, and the same interface provides verifiable reward functions for reinforcement learning. Our experiments show that mixing Reasoning Core data into pre-training improves downstream reasoning while preserving, or slightly improving, language modeling quality. Zero-shot evaluations confirm these tasks challenge frontier models such as GPT-5. The code and data are publicly available under the MIT license.

Redeneerkern: Een schaalbare suite voor procedurele gegevensegeneratie voor symbolische voor- en natraining

Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training

Samenvatting

Support