Reasoning Core : Une Suite Évolutive de Génération Procédurale de Données pour le Pré-entraînement et le Post-entraînement Symbolique

Résumé

L'entraînement sur des données symboliques vérifiables constitue une approche prometteuse pour repousser les frontières du raisonnement des modèles de langage au-delà de ce que fournissent les corpus de pré-entraînement standard. Cependant, les générateurs procéduraux existants reposent souvent sur des énigmes ou des modèles fixes et n'offrent pas l'ampleur distributionnelle nécessaire à grande échelle. Nous présentons Reasoning Core, une suite évolutive qui génère de manière procédurale des données de raisonnement symbolique vérifiables couvrant des domaines formels fondamentaux : la planification PDDL sur des domaines randomisés, la logique du premier ordre avec égalité, l'analyse syntaxique et la génération de grammaires hors-contexte, le raisonnement causal sur des réseaux bayésiens aléatoires, et les systèmes d'équations. Chaque tâche est associée à un solveur externe pour une vérification rigoureuse et permet un contrôle continu de la difficulté pour la conception de curricula. Les exemples peuvent optionnellement inclure des traces de raisonnement dérivées du solveur, permettant un entraînement supervisé dès les premières étapes du pré-entraînement, et la même interface fournit des fonctions de récompense vérifiables pour l'apprentissage par renforcement. Nos expériences montrent que l'intégration de données de Reasoning Core dans le pré-entraînement améliore le raisonnement en aval tout en préservant, voire en améliorant légèrement, la qualité de modélisation du langage. Des évaluations zero-shot confirment que ces tâches constituent un défi pour les modèles de pointe tels que GPT-5. Le code et les données sont librement disponibles sous licence MIT.

English

Training on verifiable symbolic data is a promising way to expand the reasoning frontier of language models beyond what standard pre-training corpora provide. Yet existing procedural generators often rely on fixed puzzles or templates and do not deliver the distributional breadth needed at scale. We introduce Reasoning Core, a scalable suite that procedurally generates verifiable symbolic reasoning data across core formal domains: PDDL planning over randomized domains, first-order logic with equality, context-free grammar parsing and generation, causal reasoning over random Bayesian networks, and systems of equations. Each task is paired with an external solver for rigorous verification and admits continuous difficulty control for curriculum design. Examples can optionally include solver-derived reasoning traces, enabling supervised training from the earliest pre-training stages, and the same interface provides verifiable reward functions for reinforcement learning. Our experiments show that mixing Reasoning Core data into pre-training improves downstream reasoning while preserving, or slightly improving, language modeling quality. Zero-shot evaluations confirm these tasks challenge frontier models such as GPT-5. The code and data are publicly available under the MIT license.

Reasoning Core : Une Suite Évolutive de Génération Procédurale de Données pour le Pré-entraînement et le Post-entraînement Symbolique

Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training

Résumé

Support