CHIMERA: Compacte Synthetische Data voor Generaliseerbare LLM-redeneervaardigheid
CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning
March 1, 2026
Auteurs: Xinyu Zhu, Yihao Feng, Yanchao Sun, Xianzhi Du, Pingzhi Li, Olli Saarikivi, Yun Zhu, Yu Meng
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) vertonen recentelijk opmerkelijke redeneervaardigheden, grotendeels mogelijk gemaakt door post-training met supervised fine-tuning (SFT) en reinforcement learning (RL) op hoogwaardige redeneergegevens. Het reproduceren en uitbreiden van deze capaciteiten in open en schaalbare settings wordt echter belemmerd door drie fundamentele, data-gerelateerde uitdagingen: (1) het koudstartprobleem, ontstaan door het ontbreken van seed-datasets met gedetailleerde, lange Chain-of-Thought (CoT)-trajecten die nodig zijn om redeneerbeleid te initialiseren; (2) beperkte domeindekking, aangezien de meeste bestaande open-source redeneerdatasets geconcentreerd zijn in de wiskunde, met beperkte dekking van bredere wetenschappelijke disciplines; en (3) het annotatieknelpunt, waarbij de moeilijkheidsgraad van redeneertaken op het hoogste niveau betrouwbare menselijke annotatie buitensporig duur of onuitvoerbaar maakt.
Om deze uitdagingen aan te pakken, introduceren we CHIMERA, een compacte synthetische redeneerdataset bestaande uit 9K samples voor generaliseerbare cross-domein redenering. CHIMERA is geconstrueerd met drie kerneigenschappen: (1) het biedt rijke, lange CoT-redeneertrajecten gesynthetiseerd door state-of-the-art redeneermodellen; (2) het heeft een brede en gestructureerde dekking, die 8 grote wetenschappelijke disciplines en meer dan 1K fijnmazige onderwerpen omspant, georganiseerd via een model-gegenereerde hiërarchische taxonomie; en (3) het gebruikt een volledig geautomatiseerd, schaalbaar evaluatiepijplijn dat sterke redeneermodellen inzet om zowel de probleemgeldigheid als de antwoordcorrectheid te kruisvalideren.
We gebruiken CHIMERA om een 4B Qwen3-model post-trainen. Ondanks de bescheiden omvang van de dataset, behaalt het resulterende model sterke prestaties op een reeks uitdagende redeneerbenchmarks, waaronder GPQA-Diamond, AIME 24/25/26, HMMT 25 en Humanity's Last Exam, waarbij het de redeneerprestaties van aanzienlijk grotere modellen zoals DeepSeek-R1 en Qwen3-235B benadert of evenaart.
English
Large Language Models (LLMs) have recently exhibited remarkable reasoning capabilities, largely enabled by supervised fine-tuning (SFT)- and reinforcement learning (RL)-based post-training on high-quality reasoning data. However, reproducing and extending these capabilities in open and scalable settings is hindered by three fundamental data-centric challenges: (1) the cold-start problem, arising from the lack of seed datasets with detailed, long Chain-of-Thought (CoT) trajectories needed to initialize reasoning policies; (2) limited domain coverage, as most existing open-source reasoning datasets are concentrated in mathematics, with limited coverage of broader scientific disciplines; and (3) the annotation bottleneck, where the difficulty of frontier-level reasoning tasks makes reliable human annotation prohibitively expensive or infeasible. To address these challenges, we introduce CHIMERA, a compact synthetic reasoning dataset comprising 9K samples for generalizable cross-domain reasoning. CHIMERA is constructed with three key properties: (1) it provides rich, long CoT reasoning trajectories synthesized by state-of-the-art reasoning models; (2) it has broad and structured coverage, spanning 8 major scientific disciplines and over 1K fine-grained topics organized via a model-generated hierarchical taxonomy; and (3) it employs a fully automated, scalable evaluation pipeline that uses strong reasoning models to cross-validate both problem validity and answer correctness. We use CHIMERA to post-train a 4B Qwen3 model. Despite the dataset's modest size, the resulting model achieves strong performance on a suite of challenging reasoning benchmarks, including GPQA-Diamond, AIME 24/25/26, HMMT 25, and Humanity's Last Exam, approaching or matching the reasoning performance of substantially larger models such as DeepSeek-R1 and Qwen3-235B.