CHIMERA : Données synthétiques compactes pour le raisonnement généralisable des LLM
CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning
March 1, 2026
Auteurs: Xinyu Zhu, Yihao Feng, Yanchao Sun, Xianzhi Du, Pingzhi Li, Olli Saarikivi, Yun Zhu, Yu Meng
cs.AI
Résumé
Les grands modèles de langage (LLM) ont récemment démontré des capacités de raisonnement remarquables, principalement grâce à un post-entraînement par fine-tuning supervisé (SFT) et apprentissage par renforcement (RL) sur des données de raisonnement de haute qualité. Cependant, la reproduction et l'extension de ces capacités dans des contextes ouverts et évolutifs se heurtent à trois défis fondamentaux liés aux données : (1) le problème de l'amorçage, découlant de l'absence de jeux de données initiaux contenant des trajectoires détaillées et longues de raisonnement en chaîne de pensées (CoT) nécessaires pour initialiser les politiques de raisonnement ; (2) la couverture domainale limitée, la plupart des jeux de données de raisonnement open-source existants étant concentrés sur les mathématiques, avec une couverture restreinte des disciplines scientifiques plus vastes ; et (3) le goulot d'étranglement de l'annotation, où la difficulté des tâches de raisonnement de niveau avancé rend l'annotation humaine fiable excessivement coûteuse ou irréalisable.
Pour relever ces défis, nous présentons CHIMERA, un jeu de données synthétique compact pour le raisonnement, comprenant 9 000 échantillons pour un raisonnement généralisable cross-domaine. CHIMERA est construit autour de trois propriétés clés : (1) il fournit des trajectoires de raisonnement CoT riches et longues, synthétisées par des modèles de raisonnement de pointe ; (2) il offre une couverture large et structurée, couvrant 8 disciplines scientifiques majeures et plus de 1 000 sujets granulaires organisés via une taxinomie hiérarchique générée par modèle ; et (3) il utilise un pipeline d'évaluation entièrement automatisé et évolutif qui emploie des modèles de raisonnement robustes pour valider croisée à la fois la validité des problèmes et l'exactitude des réponses.
Nous utilisons CHIMERA pour effectuer un post-entraînement d'un modèle Qwen3 de 4B. Malgré la taille modeste du jeu de données, le modèle résultant obtient de solides performances sur une suite de benchmarks de raisonnement exigeants, incluant GPQA-Diamond, AIME 24/25/26, HMMT 25 et Humanity's Last Exam, approchant ou égalant les performances de raisonnement de modèles substantiellement plus grands tels que DeepSeek-R1 et Qwen3-235B.
English
Large Language Models (LLMs) have recently exhibited remarkable reasoning capabilities, largely enabled by supervised fine-tuning (SFT)- and reinforcement learning (RL)-based post-training on high-quality reasoning data. However, reproducing and extending these capabilities in open and scalable settings is hindered by three fundamental data-centric challenges: (1) the cold-start problem, arising from the lack of seed datasets with detailed, long Chain-of-Thought (CoT) trajectories needed to initialize reasoning policies; (2) limited domain coverage, as most existing open-source reasoning datasets are concentrated in mathematics, with limited coverage of broader scientific disciplines; and (3) the annotation bottleneck, where the difficulty of frontier-level reasoning tasks makes reliable human annotation prohibitively expensive or infeasible. To address these challenges, we introduce CHIMERA, a compact synthetic reasoning dataset comprising 9K samples for generalizable cross-domain reasoning. CHIMERA is constructed with three key properties: (1) it provides rich, long CoT reasoning trajectories synthesized by state-of-the-art reasoning models; (2) it has broad and structured coverage, spanning 8 major scientific disciplines and over 1K fine-grained topics organized via a model-generated hierarchical taxonomy; and (3) it employs a fully automated, scalable evaluation pipeline that uses strong reasoning models to cross-validate both problem validity and answer correctness. We use CHIMERA to post-train a 4B Qwen3 model. Despite the dataset's modest size, the resulting model achieves strong performance on a suite of challenging reasoning benchmarks, including GPQA-Diamond, AIME 24/25/26, HMMT 25, and Humanity's Last Exam, approaching or matching the reasoning performance of substantially larger models such as DeepSeek-R1 and Qwen3-235B.