CHIMERA: Dati Sintetici Compatti per il Ragionamento Generalizzabile dei LLM
CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning
March 1, 2026
Autori: Xinyu Zhu, Yihao Feng, Yanchao Sun, Xianzhi Du, Pingzhi Li, Olli Saarikivi, Yun Zhu, Yu Meng
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno recentemente dimostrato capacità di ragionamento notevoli, abilitate principalmente dal post-addestramento basato su fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL) su dati di ragionamento di alta qualità. Tuttavia, la riproduzione e l'estensione di queste capacità in contesti aperti e scalabili è ostacolata da tre fondamentali sfide incentrate sui dati: (1) il problema del cold-start, derivante dalla mancanza di dataset iniziali con traiettorie dettagliate e lunghe di ragionamento a catena (CoT) necessarie per inizializzare le politiche di ragionamento; (2) la copertura di dominio limitata, poiché la maggior parte dei dataset di ragionamento open-source esistenti sono concentrati sulla matematica, con una copertura ristretta di discipline scientifiche più ampie; e (3) il collo di bottiglia dell'annotazione, dove la difficoltà dei compiti di ragionamento di frontiera rende l'annotazione umana affidabile proibitivamente costosa o impossibile. Per affrontare queste sfide, introduciamo CHIMERA, un dataset sintetico e compatto di ragionamento comprendente 9.000 campioni per il ragionamento generalizzabile cross-dominio. CHIMERA è costruito con tre proprietà chiave: (1) fornisce traiettorie di ragionamento CoT ricche e lunghe, sintetizzate dai modelli di ragionamento più all'avanguardia; (2) ha una copertura ampia e strutturata, che abbraccia 8 principali discipline scientifiche e oltre 1.000 argomenti granulari organizzati tramite una tassonomia gerarchica generata dal modello; e (3) impiega una pipeline di valutazione completamente automatizzata e scalabile che utilizza modelli di ragionamento robusti per convalidare incrociatamente sia la validità del problema che la correttezza della risposta. Utilizziamo CHIMERA per eseguire il post-addestramento di un modello Qwen3 da 4B. Nonostante le dimensioni modeste del dataset, il modello risultante raggiunge prestazioni solide su una serie di benchmark di ragionamento impegnativi, inclusi GPQA-Diamond, AIME 24/25/26, HMMT 25 e Humanity's Last Exam, avvicinandosi o eguagliando le prestazioni di ragionamento di modelli sostanzialmente più grandi come DeepSeek-R1 e Qwen3-235B.
English
Large Language Models (LLMs) have recently exhibited remarkable reasoning capabilities, largely enabled by supervised fine-tuning (SFT)- and reinforcement learning (RL)-based post-training on high-quality reasoning data. However, reproducing and extending these capabilities in open and scalable settings is hindered by three fundamental data-centric challenges: (1) the cold-start problem, arising from the lack of seed datasets with detailed, long Chain-of-Thought (CoT) trajectories needed to initialize reasoning policies; (2) limited domain coverage, as most existing open-source reasoning datasets are concentrated in mathematics, with limited coverage of broader scientific disciplines; and (3) the annotation bottleneck, where the difficulty of frontier-level reasoning tasks makes reliable human annotation prohibitively expensive or infeasible. To address these challenges, we introduce CHIMERA, a compact synthetic reasoning dataset comprising 9K samples for generalizable cross-domain reasoning. CHIMERA is constructed with three key properties: (1) it provides rich, long CoT reasoning trajectories synthesized by state-of-the-art reasoning models; (2) it has broad and structured coverage, spanning 8 major scientific disciplines and over 1K fine-grained topics organized via a model-generated hierarchical taxonomy; and (3) it employs a fully automated, scalable evaluation pipeline that uses strong reasoning models to cross-validate both problem validity and answer correctness. We use CHIMERA to post-train a 4B Qwen3 model. Despite the dataset's modest size, the resulting model achieves strong performance on a suite of challenging reasoning benchmarks, including GPQA-Diamond, AIME 24/25/26, HMMT 25, and Humanity's Last Exam, approaching or matching the reasoning performance of substantially larger models such as DeepSeek-R1 and Qwen3-235B.