ChatPaper.aiChatPaper

すべての正解が等しいわけではない:蒸留ソースの重要性について

Not All Correct Answers Are Equal: Why Your Distillation Source Matters

May 20, 2025
著者: Xiaoyu Tian, Yunjie Ji, Haotian Wang, Shuaiting Chen, Sitong Zhao, Yiping Peng, Han Zhao, Xiangang Li
cs.AI

要旨

蒸留は、オープンソースの言語モデルの推論能力を向上させるための実用的かつ効果的なアプローチとして注目を集めている。本研究では、1.89百万のクエリからなる共有コーパスに対して、3つの最先端教師モデル(AM-Thinking-v1、Qwen3-235B-A22B、DeepSeek-R1)から検証済みの出力を収集し、推論データ蒸留に関する大規模な実証研究を実施した。3つの並列データセットを構築し、その分布を分析した結果、AM-Thinking-v1蒸留データはトークン長の多様性が高く、パープレキシティが低いことが明らかになった。各データセットで学習した学生モデルは、AIME2024、AIME2025、MATH500、LiveCodeBenchなどの推論ベンチマークで評価された。AMベースのモデルは一貫して最高の性能を発揮し(例:AIME2024で84.3、AIME2025で72.2、MATH500で98.4、LiveCodeBenchで65.9)、適応的な出力行動を示した—難しいタスクに対しては長い応答を、簡単なタスクに対しては短い応答を生成した。これらの結果は、高品質で検証済みの推論トレースの価値を強調している。今後のオープンで高性能な推論指向言語モデルの研究を支援するため、AM-Thinking-v1およびQwen3-235B-A22B蒸留データセットを公開した。データセットはHugging Faceで公開されている:\href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}。
English
Distillation has emerged as a practical and effective approach to enhance the reasoning capabilities of open-source language models. In this work, we conduct a large-scale empirical study on reasoning data distillation by collecting verified outputs from three state-of-the-art teacher models-AM-Thinking-v1, Qwen3-235B-A22B, and DeepSeek-R1-on a shared corpus of 1.89 million queries. We construct three parallel datasets and analyze their distributions, revealing that AM-Thinking-v1-distilled data exhibits greater token length diversity and lower perplexity. Student models trained on each dataset are evaluated on reasoning benchmarks including AIME2024, AIME2025, MATH500, and LiveCodeBench. The AM-based model consistently achieves the best performance (e.g., 84.3 on AIME2024, 72.2 on AIME2025, 98.4 on MATH500, and 65.9 on LiveCodeBench) and demonstrates adaptive output behavior-producing longer responses for harder tasks and shorter ones for simpler tasks. These findings highlight the value of high-quality, verified reasoning traces. We release the AM-Thinking-v1 and Qwen3-235B-A22B distilled datasets to support future research on open and high-performing reasoning-oriented language models. The datasets are publicly available on Hugging FaceDatasets are available on Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.

Summary

AI-Generated Summary

PDF71May 21, 2025