Nicht alle richtigen Antworten sind gleich: Warum Ihre Destillationsquelle entscheidend ist
Not All Correct Answers Are Equal: Why Your Distillation Source Matters
May 20, 2025
Autoren: Xiaoyu Tian, Yunjie Ji, Haotian Wang, Shuaiting Chen, Sitong Zhao, Yiping Peng, Han Zhao, Xiangang Li
cs.AI
Zusammenfassung
Die Destillation hat sich als praktischer und effektiver Ansatz erwiesen, um die Fähigkeiten von Open-Source-Sprachmodellen im Bereich des logischen Denkens zu verbessern. In dieser Arbeit führen wir eine groß angelegte empirische Studie zur Destillation von Denkdaten durch, indem wir verifizierte Ausgaben von drei state-of-the-art Lehrer-Modellen – AM-Thinking-v1, Qwen3-235B-A22B und DeepSeek-R1 – auf einem gemeinsamen Korpus von 1,89 Millionen Anfragen sammeln. Wir erstellen drei parallele Datensätze und analysieren deren Verteilungen, wobei sich zeigt, dass die mit AM-Thinking-v1 destillierten Daten eine größere Vielfalt in der Token-Länge und eine geringere Perplexität aufweisen. Schüler-Modelle, die auf jedem dieser Datensätze trainiert wurden, werden auf Denk-Benchmarks wie AIME2024, AIME2025, MATH500 und LiveCodeBench evaluiert. Das auf AM basierende Modell erzielt durchweg die besten Leistungen (z. B. 84,3 auf AIME2024, 72,2 auf AIME2025, 98,4 auf MATH500 und 65,9 auf LiveCodeBench) und zeigt ein adaptives Ausgabeverhalten – es produziert längere Antworten für schwierigere Aufgaben und kürzere für einfachere Aufgaben. Diese Ergebnisse unterstreichen den Wert von hochwertigen, verifizierten Denkpfaden. Wir veröffentlichen die mit AM-Thinking-v1 und Qwen3-235B-A22B destillierten Datensätze, um zukünftige Forschungen zu offenen und leistungsstarken, auf logisches Denken ausgerichteten Sprachmodellen zu unterstützen. Die Datensätze sind öffentlich auf Hugging Face verfügbar: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
English
Distillation has emerged as a practical and effective approach to enhance the
reasoning capabilities of open-source language models. In this work, we conduct
a large-scale empirical study on reasoning data distillation by collecting
verified outputs from three state-of-the-art teacher models-AM-Thinking-v1,
Qwen3-235B-A22B, and DeepSeek-R1-on a shared corpus of 1.89 million queries. We
construct three parallel datasets and analyze their distributions, revealing
that AM-Thinking-v1-distilled data exhibits greater token length diversity and
lower perplexity. Student models trained on each dataset are evaluated on
reasoning benchmarks including AIME2024, AIME2025, MATH500, and LiveCodeBench.
The AM-based model consistently achieves the best performance (e.g., 84.3 on
AIME2024, 72.2 on AIME2025, 98.4 on MATH500, and 65.9 on LiveCodeBench) and
demonstrates adaptive output behavior-producing longer responses for harder
tasks and shorter ones for simpler tasks. These findings highlight the value of
high-quality, verified reasoning traces. We release the AM-Thinking-v1 and
Qwen3-235B-A22B distilled datasets to support future research on open and
high-performing reasoning-oriented language models. The datasets are publicly
available on Hugging FaceDatasets are available on Hugging Face:
\href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled},
https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.Summary
AI-Generated Summary