Reasoning Core: Una Suite Scalabile per la Generazione Procedurale di Dati per il Pre-Addestramento e il Post-Addestramento Simbolico

Abstract

L'addestramento su dati simbolici verificabili rappresenta un approccio promettente per espandere le frontiere del ragionamento dei modelli linguistici oltre quanto fornito dai corpora standard di pre-addestramento. Tuttavia, i generatori procedurali esistenti spesso si basano su puzzle o template fissi e non offrono l'ampiezza distributiva necessaria su larga scala. Introduciamo Reasoning Core, una suite scalabile che genera proceduralmente dati di ragionamento simbolico verificabili attraverso domini formali fondamentali: pianificazione PDDL su domini randomizzati, logica del primo ordine con uguaglianza, parsing e generazione di grammatiche libere dal contesto, ragionamento causale su reti bayesiane casuali e sistemi di equazioni. Ogni attività è abbinata a un risolutore esterno per una verifica rigorosa e ammette un controllo continuo della difficoltà per la progettazione di curricula. Gli esempi possono includere facoltativamente tracce di ragionamento derivate dal risolutore, consentendo un addestramento supervisionato fin dalle prime fasi di pre-addestramento, e la stessa interfaccia fornisce funzioni di reward verificabili per l'apprendimento per rinforzo. I nostri esperimenti dimostrano che miscelare i dati di Reasoning Core nel pre-addestramento migliora il ragionamento a valle, preservando o leggermente migliorando la qualità della modellazione linguistica. Valutazioni zero-shot confermano che queste attività rappresentano una sfida per modelli all'avanguardia come GPT-5. Il codice e i dati sono pubblicamente disponibili con licenza MIT.

English

Training on verifiable symbolic data is a promising way to expand the reasoning frontier of language models beyond what standard pre-training corpora provide. Yet existing procedural generators often rely on fixed puzzles or templates and do not deliver the distributional breadth needed at scale. We introduce Reasoning Core, a scalable suite that procedurally generates verifiable symbolic reasoning data across core formal domains: PDDL planning over randomized domains, first-order logic with equality, context-free grammar parsing and generation, causal reasoning over random Bayesian networks, and systems of equations. Each task is paired with an external solver for rigorous verification and admits continuous difficulty control for curriculum design. Examples can optionally include solver-derived reasoning traces, enabling supervised training from the earliest pre-training stages, and the same interface provides verifiable reward functions for reinforcement learning. Our experiments show that mixing Reasoning Core data into pre-training improves downstream reasoning while preserving, or slightly improving, language modeling quality. Zero-shot evaluations confirm these tasks challenge frontier models such as GPT-5. The code and data are publicly available under the MIT license.

Reasoning Core: Una Suite Scalabile per la Generazione Procedurale di Dati per il Pre-Addestramento e il Post-Addestramento Simbolico

Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training

Abstract

Support