ChatPaper.aiChatPaper

Nem Todas as Respostas Corretas São Iguais: Por Que Sua Fonte de Destilação Importa

Not All Correct Answers Are Equal: Why Your Distillation Source Matters

May 20, 2025
Autores: Xiaoyu Tian, Yunjie Ji, Haotian Wang, Shuaiting Chen, Sitong Zhao, Yiping Peng, Han Zhao, Xiangang Li
cs.AI

Resumo

A destilação surgiu como uma abordagem prática e eficaz para aprimorar as capacidades de raciocínio de modelos de linguagem de código aberto. Neste trabalho, realizamos um estudo empírico em larga escala sobre a destilação de dados de raciocínio, coletando saídas verificadas de três modelos professores state-of-the-art - AM-Thinking-v1, Qwen3-235B-A22B e DeepSeek-R1 - em um corpus compartilhado de 1,89 milhão de consultas. Construímos três conjuntos de dados paralelos e analisamos suas distribuições, revelando que os dados destilados do AM-Thinking-v1 exibem maior diversidade no comprimento dos tokens e menor perplexidade. Modelos estudantes treinados em cada conjunto de dados são avaliados em benchmarks de raciocínio, incluindo AIME2024, AIME2025, MATH500 e LiveCodeBench. O modelo baseado no AM consistentemente alcança o melhor desempenho (por exemplo, 84,3 no AIME2024, 72,2 no AIME2025, 98,4 no MATH500 e 65,9 no LiveCodeBench) e demonstra comportamento adaptativo na produção de saídas - gerando respostas mais longas para tarefas mais difíceis e mais curtas para tarefas mais simples. Esses achados destacam o valor de traços de raciocínio verificados e de alta qualidade. Disponibilizamos os conjuntos de dados destilados do AM-Thinking-v1 e Qwen3-235B-A22B para apoiar pesquisas futuras sobre modelos de linguagem de código aberto e de alto desempenho orientados ao raciocínio. Os conjuntos de dados estão publicamente disponíveis no Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
English
Distillation has emerged as a practical and effective approach to enhance the reasoning capabilities of open-source language models. In this work, we conduct a large-scale empirical study on reasoning data distillation by collecting verified outputs from three state-of-the-art teacher models-AM-Thinking-v1, Qwen3-235B-A22B, and DeepSeek-R1-on a shared corpus of 1.89 million queries. We construct three parallel datasets and analyze their distributions, revealing that AM-Thinking-v1-distilled data exhibits greater token length diversity and lower perplexity. Student models trained on each dataset are evaluated on reasoning benchmarks including AIME2024, AIME2025, MATH500, and LiveCodeBench. The AM-based model consistently achieves the best performance (e.g., 84.3 on AIME2024, 72.2 on AIME2025, 98.4 on MATH500, and 65.9 on LiveCodeBench) and demonstrates adaptive output behavior-producing longer responses for harder tasks and shorter ones for simpler tasks. These findings highlight the value of high-quality, verified reasoning traces. We release the AM-Thinking-v1 and Qwen3-235B-A22B distilled datasets to support future research on open and high-performing reasoning-oriented language models. The datasets are publicly available on Hugging FaceDatasets are available on Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
PDF92December 16, 2025