ChatPaper.aiChatPaper

CHIMERA: Dados Sintéticos Compactos para Raciocínio Generalizável em LLMs

CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

March 1, 2026
Autores: Xinyu Zhu, Yihao Feng, Yanchao Sun, Xianzhi Du, Pingzhi Li, Olli Saarikivi, Yun Zhu, Yu Meng
cs.AI

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) têm demonstrado recentemente capacidades de raciocínio notáveis, em grande parte possibilitadas pelo pós-treinamento baseado em ajuste fino supervisionado (SFT) e aprendizado por reforço (RL) em dados de raciocínio de alta qualidade. No entanto, a reprodução e extensão dessas capacidades em ambientes abertos e escaláveis é dificultada por três desafios fundamentais centrados nos dados: (1) o problema do início a frio, decorrente da falta de conjuntos de dados iniciais com trajetórias detalhadas e longas de Cadeia de Pensamento (CoT) necessárias para inicializar políticas de raciocínio; (2) a cobertura de domínio limitada, uma vez que a maioria dos conjuntos de dados de raciocínio de código aberto existentes está concentrada em matemática, com cobertura limitada de disciplinas científicas mais amplas; e (3) o gargalo de anotação, onde a dificuldade das tarefas de raciocínio de nível de fronteira torna a anotação humana confiável proibitivamente cara ou inviável. Para enfrentar esses desafios, apresentamos o CHIMERA, um conjunto de dados sintético e compacto de raciocínio composto por 9K amostras para raciocínio generalizável entre domínios. O CHIMERA é construído com três propriedades principais: (1) fornece trajetórias de raciocínio CoT longas e ricas, sintetizadas por modelos de raciocínio state-of-the-art; (2) possui cobertura ampla e estruturada, abrangendo 8 grandes disciplinas científicas e mais de 1K tópicos granulares organizados por meio de uma taxonomia hierárquica gerada por modelo; e (3) emprega um pipeline de avaliação totalmente automatizado e escalável que usa modelos de raciocínio robustos para validar cruzadamente tanto a validade do problema quanto a correção da resposta. Utilizamos o CHIMERA para realizar o pós-treinamento de um modelo Qwen3 de 4B. Apesar do tamanho modesto do conjunto de dados, o modelo resultante alcança um desempenho forte em um conjunto de benchmarks desafiadores de raciocínio, incluindo GPQA-Diamond, AIME 24/25/26, HMMT 25 e Humanity's Last Exam, aproximando-se ou igualando o desempenho de raciocínio de modelos substancialmente maiores, como o DeepSeek-R1 e o Qwen3-235B.
English
Large Language Models (LLMs) have recently exhibited remarkable reasoning capabilities, largely enabled by supervised fine-tuning (SFT)- and reinforcement learning (RL)-based post-training on high-quality reasoning data. However, reproducing and extending these capabilities in open and scalable settings is hindered by three fundamental data-centric challenges: (1) the cold-start problem, arising from the lack of seed datasets with detailed, long Chain-of-Thought (CoT) trajectories needed to initialize reasoning policies; (2) limited domain coverage, as most existing open-source reasoning datasets are concentrated in mathematics, with limited coverage of broader scientific disciplines; and (3) the annotation bottleneck, where the difficulty of frontier-level reasoning tasks makes reliable human annotation prohibitively expensive or infeasible. To address these challenges, we introduce CHIMERA, a compact synthetic reasoning dataset comprising 9K samples for generalizable cross-domain reasoning. CHIMERA is constructed with three key properties: (1) it provides rich, long CoT reasoning trajectories synthesized by state-of-the-art reasoning models; (2) it has broad and structured coverage, spanning 8 major scientific disciplines and over 1K fine-grained topics organized via a model-generated hierarchical taxonomy; and (3) it employs a fully automated, scalable evaluation pipeline that uses strong reasoning models to cross-validate both problem validity and answer correctness. We use CHIMERA to post-train a 4B Qwen3 model. Despite the dataset's modest size, the resulting model achieves strong performance on a suite of challenging reasoning benchmarks, including GPQA-Diamond, AIME 24/25/26, HMMT 25, and Humanity's Last Exam, approaching or matching the reasoning performance of substantially larger models such as DeepSeek-R1 and Qwen3-235B.
PDF553March 19, 2026