Niet Alle Juiste Antwoorden Zijn Gelijk: Waarom Je Distillatiebron Belangrijk Is
Not All Correct Answers Are Equal: Why Your Distillation Source Matters
May 20, 2025
Auteurs: Xiaoyu Tian, Yunjie Ji, Haotian Wang, Shuaiting Chen, Sitong Zhao, Yiping Peng, Han Zhao, Xiangang Li
cs.AI
Samenvatting
Distillatie is naar voren gekomen als een praktische en effectieve aanpak om de redeneervaardigheden van open-source taalmodelen te verbeteren. In dit werk voeren we een grootschalig empirisch onderzoek uit naar de distillatie van redeneergegevens door geverifieerde uitvoer te verzamelen van drie state-of-the-art leraarmodellen—AM-Thinking-v1, Qwen3-235B-A22B en DeepSeek-R1—op een gedeelde corpus van 1,89 miljoen queries. We construeren drie parallelle datasets en analyseren hun verdelingen, waaruit blijkt dat de gedistilleerde data van AM-Thinking-v1 een grotere diversiteit in tokenlengte en een lagere perplexiteit vertoont. Studentmodellen die op elke dataset zijn getraind, worden geëvalueerd op redeneerbenchmarks, waaronder AIME2024, AIME2025, MATH500 en LiveCodeBench. Het op AM gebaseerde model behaalt consistent de beste prestaties (bijvoorbeeld 84,3 op AIME2024, 72,2 op AIME2025, 98,4 op MATH500 en 65,9 op LiveCodeBench) en toont adaptief uitvoergedrag—langere reacties voor moeilijkere taken en kortere voor eenvoudigere taken. Deze bevindingen onderstrepen de waarde van hoogwaardige, geverifieerde redeneersporen. We maken de gedistilleerde datasets van AM-Thinking-v1 en Qwen3-235B-A22B beschikbaar om toekomstig onderzoek naar open en hoogpresterende, op redeneren gerichte taalmodelen te ondersteunen. De datasets zijn publiekelijk beschikbaar op Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
English
Distillation has emerged as a practical and effective approach to enhance the
reasoning capabilities of open-source language models. In this work, we conduct
a large-scale empirical study on reasoning data distillation by collecting
verified outputs from three state-of-the-art teacher models-AM-Thinking-v1,
Qwen3-235B-A22B, and DeepSeek-R1-on a shared corpus of 1.89 million queries. We
construct three parallel datasets and analyze their distributions, revealing
that AM-Thinking-v1-distilled data exhibits greater token length diversity and
lower perplexity. Student models trained on each dataset are evaluated on
reasoning benchmarks including AIME2024, AIME2025, MATH500, and LiveCodeBench.
The AM-based model consistently achieves the best performance (e.g., 84.3 on
AIME2024, 72.2 on AIME2025, 98.4 on MATH500, and 65.9 on LiveCodeBench) and
demonstrates adaptive output behavior-producing longer responses for harder
tasks and shorter ones for simpler tasks. These findings highlight the value of
high-quality, verified reasoning traces. We release the AM-Thinking-v1 and
Qwen3-235B-A22B distilled datasets to support future research on open and
high-performing reasoning-oriented language models. The datasets are publicly
available on Hugging FaceDatasets are available on Hugging Face:
\href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled},
https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.Summary
AI-Generated Summary