CHIMERA: Datos Sintéticos Compactos para el Razonamiento Generalizable en LLM

Resumen

Los Modelos de Lenguaje Grandes (LLMs) han exhibido recientemente capacidades de razonamiento notables, habilitadas en gran medida por el ajuste fino supervisado (SFT) y el post-entrenamiento basado en aprendizaje por refuerzo (RL) sobre datos de razonamiento de alta calidad. Sin embargo, la reproducción y extensión de estas capacidades en entornos abiertos y escalables se ve obstaculizada por tres desafíos fundamentales centrados en los datos: (1) el problema del arranque en frío, que surge de la falta de conjuntos de datos semilla con trayectorias detalladas y extensas de Cadena de Pensamiento (CoT) necesarias para inicializar políticas de razonamiento; (2) la cobertura de dominio limitada, ya que la mayoría de los conjuntos de datos de razonamiento de código abierto existentes se concentran en matemáticas, con una cobertura limitada de disciplinas científicas más amplias; y (3) el cuello de botella en la anotación, donde la dificultad de las tareas de razonamiento de nivel fronterizo hace que la anotación humana confiable sea prohibitivamente costosa o inviable. Para abordar estos desafíos, presentamos CHIMERA, un conjunto de datos sintético y compacto de razonamiento que comprende 9K muestras para el razonamiento generalizable cruzado de dominios. CHIMERA se construye con tres propiedades clave: (1) proporciona trayectorias de razonamiento CoT ricas y extensas, sintetizadas por modelos de razonamiento de última generación; (2) tiene una cobertura amplia y estructurada, abarcando 8 disciplinas científicas principales y más de 1K temas detallados organizados mediante una taxonomía jerárquica generada por modelos; y (3) emplea una canalización de evaluación completamente automatizada y escalable que utiliza modelos de razonamiento sólidos para validar cruzadamente tanto la validez del problema como la corrección de la respuesta. Utilizamos CHIMERA para realizar post-entrenamiento en un modelo Qwen3 de 4B. A pesar del tamaño modesto del conjunto de datos, el modelo resultante logra un rendimiento sólido en un conjunto de benchmarks de razonamiento desafiantes, incluyendo GPQA-Diamond, AIME 24/25/26, HMMT 25 y Humanity's Last Exam, acercándose o igualando el rendimiento de razonamiento de modelos sustancialmente más grandes como DeepSeek-R1 y Qwen3-235B.

English

Large Language Models (LLMs) have recently exhibited remarkable reasoning capabilities, largely enabled by supervised fine-tuning (SFT)- and reinforcement learning (RL)-based post-training on high-quality reasoning data. However, reproducing and extending these capabilities in open and scalable settings is hindered by three fundamental data-centric challenges: (1) the cold-start problem, arising from the lack of seed datasets with detailed, long Chain-of-Thought (CoT) trajectories needed to initialize reasoning policies; (2) limited domain coverage, as most existing open-source reasoning datasets are concentrated in mathematics, with limited coverage of broader scientific disciplines; and (3) the annotation bottleneck, where the difficulty of frontier-level reasoning tasks makes reliable human annotation prohibitively expensive or infeasible. To address these challenges, we introduce CHIMERA, a compact synthetic reasoning dataset comprising 9K samples for generalizable cross-domain reasoning. CHIMERA is constructed with three key properties: (1) it provides rich, long CoT reasoning trajectories synthesized by state-of-the-art reasoning models; (2) it has broad and structured coverage, spanning 8 major scientific disciplines and over 1K fine-grained topics organized via a model-generated hierarchical taxonomy; and (3) it employs a fully automated, scalable evaluation pipeline that uses strong reasoning models to cross-validate both problem validity and answer correctness. We use CHIMERA to post-train a 4B Qwen3 model. Despite the dataset's modest size, the resulting model achieves strong performance on a suite of challenging reasoning benchmarks, including GPQA-Diamond, AIME 24/25/26, HMMT 25, and Humanity's Last Exam, approaching or matching the reasoning performance of substantially larger models such as DeepSeek-R1 and Qwen3-235B.

CHIMERA: Datos Sintéticos Compactos para el Razonamiento Generalizable en LLM

CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

Resumen

Support