ChatPaper.aiChatPaper

No todas las respuestas correctas son iguales: por qué la fuente de destilación importa

Not All Correct Answers Are Equal: Why Your Distillation Source Matters

May 20, 2025
Autores: Xiaoyu Tian, Yunjie Ji, Haotian Wang, Shuaiting Chen, Sitong Zhao, Yiping Peng, Han Zhao, Xiangang Li
cs.AI

Resumen

La destilación ha surgido como un enfoque práctico y efectivo para mejorar las capacidades de razonamiento de los modelos de lenguaje de código abierto. En este trabajo, realizamos un estudio empírico a gran escala sobre la destilación de datos de razonamiento, recopilando salidas verificadas de tres modelos docentes de última generación—AM-Thinking-v1, Qwen3-235B-A22B y DeepSeek-R1—en un corpus compartido de 1.89 millones de consultas. Construimos tres conjuntos de datos paralelos y analizamos sus distribuciones, revelando que los datos destilados de AM-Thinking-v1 exhiben una mayor diversidad en la longitud de tokens y una menor perplejidad. Los modelos estudiantes entrenados en cada conjunto de datos son evaluados en benchmarks de razonamiento, incluyendo AIME2024, AIME2025, MATH500 y LiveCodeBench. El modelo basado en AM logra consistentemente el mejor rendimiento (por ejemplo, 84.3 en AIME2024, 72.2 en AIME2025, 98.4 en MATH500 y 65.9 en LiveCodeBench) y demuestra un comportamiento adaptativo en sus salidas—produciendo respuestas más largas para tareas más difíciles y más cortas para tareas más simples. Estos hallazgos resaltan el valor de los trazos de razonamiento verificados y de alta calidad. Publicamos los conjuntos de datos destilados de AM-Thinking-v1 y Qwen3-235B-A22B para apoyar futuras investigaciones sobre modelos de lenguaje orientados al razonamiento, abiertos y de alto rendimiento. Los conjuntos de datos están disponibles públicamente en Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
English
Distillation has emerged as a practical and effective approach to enhance the reasoning capabilities of open-source language models. In this work, we conduct a large-scale empirical study on reasoning data distillation by collecting verified outputs from three state-of-the-art teacher models-AM-Thinking-v1, Qwen3-235B-A22B, and DeepSeek-R1-on a shared corpus of 1.89 million queries. We construct three parallel datasets and analyze their distributions, revealing that AM-Thinking-v1-distilled data exhibits greater token length diversity and lower perplexity. Student models trained on each dataset are evaluated on reasoning benchmarks including AIME2024, AIME2025, MATH500, and LiveCodeBench. The AM-based model consistently achieves the best performance (e.g., 84.3 on AIME2024, 72.2 on AIME2025, 98.4 on MATH500, and 65.9 on LiveCodeBench) and demonstrates adaptive output behavior-producing longer responses for harder tasks and shorter ones for simpler tasks. These findings highlight the value of high-quality, verified reasoning traces. We release the AM-Thinking-v1 and Qwen3-235B-A22B distilled datasets to support future research on open and high-performing reasoning-oriented language models. The datasets are publicly available on Hugging FaceDatasets are available on Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.

Summary

AI-Generated Summary

PDF71May 21, 2025