Toutes les bonnes réponses ne se valent pas : pourquoi votre source de distillation est cruciale

papers.abstract

La distillation s'est imposée comme une approche pratique et efficace pour améliorer les capacités de raisonnement des modèles de langage open-source. Dans ce travail, nous menons une étude empirique à grande échelle sur la distillation de données de raisonnement en collectant des sorties vérifiées provenant de trois modèles enseignants de pointe—AM-Thinking-v1, Qwen3-235B-A22B et DeepSeek-R1—sur un corpus partagé de 1,89 million de requêtes. Nous construisons trois ensembles de données parallèles et analysons leurs distributions, révélant que les données distillées par AM-Thinking-v1 présentent une plus grande diversité en termes de longueur de tokens et une perplexité plus faible. Les modèles étudiants entraînés sur chaque ensemble de données sont évalués sur des benchmarks de raisonnement incluant AIME2024, AIME2025, MATH500 et LiveCodeBench. Le modèle basé sur AM obtient systématiquement les meilleures performances (par exemple, 84,3 sur AIME2024, 72,2 sur AIME2025, 98,4 sur MATH500 et 65,9 sur LiveCodeBench) et démontre un comportement de sortie adaptatif—produisant des réponses plus longues pour les tâches plus difficiles et plus courtes pour les tâches plus simples. Ces résultats mettent en lumière la valeur des traces de raisonnement de haute qualité et vérifiées. Nous publions les ensembles de données distillés AM-Thinking-v1 et Qwen3-235B-A22B pour soutenir les recherches futures sur les modèles de langage open-source performants et orientés vers le raisonnement. Les ensembles de données sont disponibles publiquement sur Hugging Face : \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.

English

Distillation has emerged as a practical and effective approach to enhance the reasoning capabilities of open-source language models. In this work, we conduct a large-scale empirical study on reasoning data distillation by collecting verified outputs from three state-of-the-art teacher models-AM-Thinking-v1, Qwen3-235B-A22B, and DeepSeek-R1-on a shared corpus of 1.89 million queries. We construct three parallel datasets and analyze their distributions, revealing that AM-Thinking-v1-distilled data exhibits greater token length diversity and lower perplexity. Student models trained on each dataset are evaluated on reasoning benchmarks including AIME2024, AIME2025, MATH500, and LiveCodeBench. The AM-based model consistently achieves the best performance (e.g., 84.3 on AIME2024, 72.2 on AIME2025, 98.4 on MATH500, and 65.9 on LiveCodeBench) and demonstrates adaptive output behavior-producing longer responses for harder tasks and shorter ones for simpler tasks. These findings highlight the value of high-quality, verified reasoning traces. We release the AM-Thinking-v1 and Qwen3-235B-A22B distilled datasets to support future research on open and high-performing reasoning-oriented language models. The datasets are publicly available on Hugging FaceDatasets are available on Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.

Toutes les bonnes réponses ne se valent pas : pourquoi votre source de distillation est cruciale

Not All Correct Answers Are Equal: Why Your Distillation Source Matters

papers.abstract

Support