Toutes les bonnes réponses ne se valent pas : pourquoi votre source de distillation est cruciale
Not All Correct Answers Are Equal: Why Your Distillation Source Matters
May 20, 2025
Auteurs: Xiaoyu Tian, Yunjie Ji, Haotian Wang, Shuaiting Chen, Sitong Zhao, Yiping Peng, Han Zhao, Xiangang Li
cs.AI
Résumé
La distillation s'est imposée comme une approche pratique et efficace pour améliorer les capacités de raisonnement des modèles de langage open-source. Dans ce travail, nous menons une étude empirique à grande échelle sur la distillation de données de raisonnement en collectant des sorties vérifiées provenant de trois modèles enseignants de pointe—AM-Thinking-v1, Qwen3-235B-A22B et DeepSeek-R1—sur un corpus partagé de 1,89 million de requêtes. Nous construisons trois ensembles de données parallèles et analysons leurs distributions, révélant que les données distillées par AM-Thinking-v1 présentent une plus grande diversité en termes de longueur de tokens et une perplexité plus faible. Les modèles étudiants entraînés sur chaque ensemble de données sont évalués sur des benchmarks de raisonnement incluant AIME2024, AIME2025, MATH500 et LiveCodeBench. Le modèle basé sur AM obtient systématiquement les meilleures performances (par exemple, 84,3 sur AIME2024, 72,2 sur AIME2025, 98,4 sur MATH500 et 65,9 sur LiveCodeBench) et démontre un comportement de sortie adaptatif—produisant des réponses plus longues pour les tâches plus difficiles et plus courtes pour les tâches plus simples. Ces résultats mettent en lumière la valeur des traces de raisonnement de haute qualité et vérifiées. Nous publions les ensembles de données distillés AM-Thinking-v1 et Qwen3-235B-A22B pour soutenir les recherches futures sur les modèles de langage open-source performants et orientés vers le raisonnement. Les ensembles de données sont disponibles publiquement sur Hugging Face : \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
English
Distillation has emerged as a practical and effective approach to enhance the
reasoning capabilities of open-source language models. In this work, we conduct
a large-scale empirical study on reasoning data distillation by collecting
verified outputs from three state-of-the-art teacher models-AM-Thinking-v1,
Qwen3-235B-A22B, and DeepSeek-R1-on a shared corpus of 1.89 million queries. We
construct three parallel datasets and analyze their distributions, revealing
that AM-Thinking-v1-distilled data exhibits greater token length diversity and
lower perplexity. Student models trained on each dataset are evaluated on
reasoning benchmarks including AIME2024, AIME2025, MATH500, and LiveCodeBench.
The AM-based model consistently achieves the best performance (e.g., 84.3 on
AIME2024, 72.2 on AIME2025, 98.4 on MATH500, and 65.9 on LiveCodeBench) and
demonstrates adaptive output behavior-producing longer responses for harder
tasks and shorter ones for simpler tasks. These findings highlight the value of
high-quality, verified reasoning traces. We release the AM-Thinking-v1 and
Qwen3-235B-A22B distilled datasets to support future research on open and
high-performing reasoning-oriented language models. The datasets are publicly
available on Hugging FaceDatasets are available on Hugging Face:
\href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled},
https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.Summary
AI-Generated Summary