CHIMERA: Kompakte synthetische Daten für generalisierbare LLM-Argumentation
CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning
March 1, 2026
Autoren: Xinyu Zhu, Yihao Feng, Yanchao Sun, Xianzhi Du, Pingzhi Li, Olli Saarikivi, Yun Zhu, Yu Meng
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben kürzlich bemerkenswerte Fähigkeiten im logischen Denken gezeigt, die größtenteils durch überwachtes Feinabstimmen (SFT) und verstärkendes Lernen (RL) auf Grundlage hochwertiger Denkdaten ermöglicht wurden. Die Reproduktion und Erweiterung dieser Fähigkeiten in offenen und skalierbaren Umgebungen wird jedoch durch drei grundlegende datenzentrierte Herausforderungen behindert: (1) das Cold-Start-Problem, das aus dem Mangel an Ausgangsdatensätzen mit detaillierten, langen Denkketten (Chain-of-Thought, CoT) zur Initialisierung von Denkrichtlinien resultiert; (2) begrenzte Domänenabdeckung, da die meisten existierenden Open-Source-Denkdatensätze auf Mathematik konzentriert sind und nur eine eingeschränkte Abdeckung breiterer wissenschaftlicher Disziplinen bieten; und (3) der Annotationsengpass, bei dem die Schwierigkeit von Spitzen-Denkaufgaben eine zuverlässige menschliche Annotation prohibitiv teuer oder undurchführbar macht. Um diese Herausforderungen zu adressieren, stellen wir CHIMERA vor, einen kompakten synthetischen Denkdatensatz mit 9K Beispielen für generalisierbares domänenübergreifendes Denken. CHIMERA wurde mit drei Schlüsseleigenschaften konstruiert: (1) Er bietet umfangreiche, lange CoT-Denkverläufe, die von modernsten Denkmodellen synthetisiert wurden; (2) Er verfügt über eine breite und strukturierte Abdeckung, die 8 große wissenschaftliche Disziplinen und über 1.000 feingranulare Themen umfasst, die über eine modellgenerierte hierarchische Taxonomie organisiert sind; und (3) Er verwendet eine vollständig automatisierte, skalierbare Evaluierungspipeline, die starke Denkmodelle zur Kreuzvalidierung sowohl der Problemvalidität als auch der Antwortkorrektheit nutzt. Wir verwenden CHIMERA, um ein Qwen3-Modell mit 4B Parametern nachzutrainieren. Trotz der bescheidenen Größe des Datensatzes erreicht das resultierende Modell starke Leistungen auf einer Reihe anspruchsvoller Denkbenchmarks, darunter GPQA-Diamond, AIME 24/25/26, HMMT 25 und Humanity's Last Exam, und nähert sich der oder erreicht sogar die Denkleistung wesentlich größerer Modelle wie DeepSeek-R1 und Qwen3-235B.
English
Large Language Models (LLMs) have recently exhibited remarkable reasoning capabilities, largely enabled by supervised fine-tuning (SFT)- and reinforcement learning (RL)-based post-training on high-quality reasoning data. However, reproducing and extending these capabilities in open and scalable settings is hindered by three fundamental data-centric challenges: (1) the cold-start problem, arising from the lack of seed datasets with detailed, long Chain-of-Thought (CoT) trajectories needed to initialize reasoning policies; (2) limited domain coverage, as most existing open-source reasoning datasets are concentrated in mathematics, with limited coverage of broader scientific disciplines; and (3) the annotation bottleneck, where the difficulty of frontier-level reasoning tasks makes reliable human annotation prohibitively expensive or infeasible. To address these challenges, we introduce CHIMERA, a compact synthetic reasoning dataset comprising 9K samples for generalizable cross-domain reasoning. CHIMERA is constructed with three key properties: (1) it provides rich, long CoT reasoning trajectories synthesized by state-of-the-art reasoning models; (2) it has broad and structured coverage, spanning 8 major scientific disciplines and over 1K fine-grained topics organized via a model-generated hierarchical taxonomy; and (3) it employs a fully automated, scalable evaluation pipeline that uses strong reasoning models to cross-validate both problem validity and answer correctness. We use CHIMERA to post-train a 4B Qwen3 model. Despite the dataset's modest size, the resulting model achieves strong performance on a suite of challenging reasoning benchmarks, including GPQA-Diamond, AIME 24/25/26, HMMT 25, and Humanity's Last Exam, approaching or matching the reasoning performance of substantially larger models such as DeepSeek-R1 and Qwen3-235B.