CHIMERA: Dados Sintéticos Compactos para Raciocínio Generalizável em LLMs

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) têm demonstrado recentemente capacidades de raciocínio notáveis, em grande parte possibilitadas pelo pós-treinamento baseado em ajuste fino supervisionado (SFT) e aprendizado por reforço (RL) em dados de raciocínio de alta qualidade. No entanto, a reprodução e extensão dessas capacidades em ambientes abertos e escaláveis é dificultada por três desafios fundamentais centrados nos dados: (1) o problema do início a frio, decorrente da falta de conjuntos de dados iniciais com trajetórias detalhadas e longas de Cadeia de Pensamento (CoT) necessárias para inicializar políticas de raciocínio; (2) a cobertura de domínio limitada, uma vez que a maioria dos conjuntos de dados de raciocínio de código aberto existentes está concentrada em matemática, com cobertura limitada de disciplinas científicas mais amplas; e (3) o gargalo de anotação, onde a dificuldade das tarefas de raciocínio de nível de fronteira torna a anotação humana confiável proibitivamente cara ou inviável. Para enfrentar esses desafios, apresentamos o CHIMERA, um conjunto de dados sintético e compacto de raciocínio composto por 9K amostras para raciocínio generalizável entre domínios. O CHIMERA é construído com três propriedades principais: (1) fornece trajetórias de raciocínio CoT longas e ricas, sintetizadas por modelos de raciocínio state-of-the-art; (2) possui cobertura ampla e estruturada, abrangendo 8 grandes disciplinas científicas e mais de 1K tópicos granulares organizados por meio de uma taxonomia hierárquica gerada por modelo; e (3) emprega um pipeline de avaliação totalmente automatizado e escalável que usa modelos de raciocínio robustos para validar cruzadamente tanto a validade do problema quanto a correção da resposta. Utilizamos o CHIMERA para realizar o pós-treinamento de um modelo Qwen3 de 4B. Apesar do tamanho modesto do conjunto de dados, o modelo resultante alcança um desempenho forte em um conjunto de benchmarks desafiadores de raciocínio, incluindo GPQA-Diamond, AIME 24/25/26, HMMT 25 e Humanity's Last Exam, aproximando-se ou igualando o desempenho de raciocínio de modelos substancialmente maiores, como o DeepSeek-R1 e o Qwen3-235B.

English

Large Language Models (LLMs) have recently exhibited remarkable reasoning capabilities, largely enabled by supervised fine-tuning (SFT)- and reinforcement learning (RL)-based post-training on high-quality reasoning data. However, reproducing and extending these capabilities in open and scalable settings is hindered by three fundamental data-centric challenges: (1) the cold-start problem, arising from the lack of seed datasets with detailed, long Chain-of-Thought (CoT) trajectories needed to initialize reasoning policies; (2) limited domain coverage, as most existing open-source reasoning datasets are concentrated in mathematics, with limited coverage of broader scientific disciplines; and (3) the annotation bottleneck, where the difficulty of frontier-level reasoning tasks makes reliable human annotation prohibitively expensive or infeasible. To address these challenges, we introduce CHIMERA, a compact synthetic reasoning dataset comprising 9K samples for generalizable cross-domain reasoning. CHIMERA is constructed with three key properties: (1) it provides rich, long CoT reasoning trajectories synthesized by state-of-the-art reasoning models; (2) it has broad and structured coverage, spanning 8 major scientific disciplines and over 1K fine-grained topics organized via a model-generated hierarchical taxonomy; and (3) it employs a fully automated, scalable evaluation pipeline that uses strong reasoning models to cross-validate both problem validity and answer correctness. We use CHIMERA to post-train a 4B Qwen3 model. Despite the dataset's modest size, the resulting model achieves strong performance on a suite of challenging reasoning benchmarks, including GPQA-Diamond, AIME 24/25/26, HMMT 25, and Humanity's Last Exam, approaching or matching the reasoning performance of substantially larger models such as DeepSeek-R1 and Qwen3-235B.

CHIMERA: Dados Sintéticos Compactos para Raciocínio Generalizável em LLMs

CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

Resumo

Support