CHIMERA: Компактные синтетические данные для обобщающих способностей к рассуждению в больших языковых моделях
CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning
March 1, 2026
Авторы: Xinyu Zhu, Yihao Feng, Yanchao Sun, Xianzhi Du, Pingzhi Li, Olli Saarikivi, Yun Zhu, Yu Meng
cs.AI
Аннотация
Крупные языковые модели (LLM) недавно продемонстрировали впечатляющие способности к логическим рассуждениям, что в значительной степени стало возможным благодаря последующему дообучению (post-training) на основе обучения с учителем (SFT) и обучения с подкреплением (RL) на высококачественных данных, требующих логических рассуждений. Однако воспроизведение и расширение этих возможностей в открытых и масштабируемых условиях затруднено тремя фундаментальными проблемами, связанными с данными: (1) проблема "холодного старта", возникающая из-за отсутствия начальных наборов данных с подробными, длинными траекториями "цепочки рассуждений" (CoT), необходимых для инициализации политик рассуждений; (2) ограниченный охват предметных областей, поскольку большинство существующих открытых наборов данных для рассуждений сосредоточены на математике, с малым охватом более широких научных дисциплин; и (3) узкое место в разметке, где сложность задач рассуждений передового уровня делает надежную человеческую разметку чрезмерно дорогой или неосуществимой. Для решения этих проблем мы представляем CHIMERA, компактный синтетический набор данных для рассуждений, содержащий 9 тыс. примеров для обобщающих междисциплинарных рассуждений. CHIMERA построен с тремя ключевыми свойствами: (1) он предоставляет богатые, длинные траектории CoT-рассуждений, синтезированные современными моделями рассуждений; (2) он имеет широкий и структурированный охват, охватывая 8 основных научных дисциплин и более 1 тыс. узко специализированных тем, организованных с помощью сгенерированной моделью иерархической таксономии; и (3) он использует полностью автоматизированный, масштабируемый конвейер оценки, который применяет мощные модели рассуждений для перекрестной проверки как валидности задач, так и правильности ответов. Мы используем CHIMERA для пост-тренировки модели Qwen3 с 4 млрд параметров. Несмотря на скромный размер набора данных, полученная модель демонстрирует высокую производительность на наборе сложных бенчмарков для оценки рассуждений, включая GPQA-Diamond, AIME 24/25/26, HMMT 25 и Humanity's Last Exam, приближаясь или соответствуя результатам моделей со значительно большим размером, таких как DeepSeek-R1 и Qwen3-235B.
English
Large Language Models (LLMs) have recently exhibited remarkable reasoning capabilities, largely enabled by supervised fine-tuning (SFT)- and reinforcement learning (RL)-based post-training on high-quality reasoning data. However, reproducing and extending these capabilities in open and scalable settings is hindered by three fundamental data-centric challenges: (1) the cold-start problem, arising from the lack of seed datasets with detailed, long Chain-of-Thought (CoT) trajectories needed to initialize reasoning policies; (2) limited domain coverage, as most existing open-source reasoning datasets are concentrated in mathematics, with limited coverage of broader scientific disciplines; and (3) the annotation bottleneck, where the difficulty of frontier-level reasoning tasks makes reliable human annotation prohibitively expensive or infeasible. To address these challenges, we introduce CHIMERA, a compact synthetic reasoning dataset comprising 9K samples for generalizable cross-domain reasoning. CHIMERA is constructed with three key properties: (1) it provides rich, long CoT reasoning trajectories synthesized by state-of-the-art reasoning models; (2) it has broad and structured coverage, spanning 8 major scientific disciplines and over 1K fine-grained topics organized via a model-generated hierarchical taxonomy; and (3) it employs a fully automated, scalable evaluation pipeline that uses strong reasoning models to cross-validate both problem validity and answer correctness. We use CHIMERA to post-train a 4B Qwen3 model. Despite the dataset's modest size, the resulting model achieves strong performance on a suite of challenging reasoning benchmarks, including GPQA-Diamond, AIME 24/25/26, HMMT 25, and Humanity's Last Exam, approaching or matching the reasoning performance of substantially larger models such as DeepSeek-R1 and Qwen3-235B.