Не все правильные ответы равны: почему источник дистилляции имеет значение

Аннотация

Дистилляция стала практичным и эффективным подходом для улучшения способностей к рассуждению у открытых языковых моделей. В данной работе мы проводим масштабное эмпирическое исследование дистилляции данных для рассуждений, собирая проверенные выходные данные от трех современных моделей-учителей — AM-Thinking-v1, Qwen3-235B-A22B и DeepSeek-R1 — на общем корпусе из 1,89 миллиона запросов. Мы создаем три параллельных набора данных и анализируем их распределения, обнаруживая, что данные, дистиллированные с помощью AM-Thinking-v1, демонстрируют большее разнообразие длины токенов и более низкую перплексию. Модели-ученики, обученные на каждом наборе данных, оцениваются на тестах для рассуждений, включая AIME2024, AIME2025, MATH500 и LiveCodeBench. Модель на основе AM стабильно показывает наилучшие результаты (например, 84,3 на AIME2024, 72,2 на AIME2025, 98,4 на MATH500 и 65,9 на LiveCodeBench) и демонстрирует адаптивное поведение при генерации ответов — более длинные ответы для сложных задач и более короткие для простых. Эти результаты подчеркивают ценность высококачественных, проверенных трасс рассуждений. Мы публикуем дистиллированные наборы данных AM-Thinking-v1 и Qwen3-235B-A22B для поддержки будущих исследований в области открытых и высокопроизводительных языковых моделей, ориентированных на рассуждения. Наборы данных доступны на платформе Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.

English

Distillation has emerged as a practical and effective approach to enhance the reasoning capabilities of open-source language models. In this work, we conduct a large-scale empirical study on reasoning data distillation by collecting verified outputs from three state-of-the-art teacher models-AM-Thinking-v1, Qwen3-235B-A22B, and DeepSeek-R1-on a shared corpus of 1.89 million queries. We construct three parallel datasets and analyze their distributions, revealing that AM-Thinking-v1-distilled data exhibits greater token length diversity and lower perplexity. Student models trained on each dataset are evaluated on reasoning benchmarks including AIME2024, AIME2025, MATH500, and LiveCodeBench. The AM-based model consistently achieves the best performance (e.g., 84.3 on AIME2024, 72.2 on AIME2025, 98.4 on MATH500, and 65.9 on LiveCodeBench) and demonstrates adaptive output behavior-producing longer responses for harder tasks and shorter ones for simpler tasks. These findings highlight the value of high-quality, verified reasoning traces. We release the AM-Thinking-v1 and Qwen3-235B-A22B distilled datasets to support future research on open and high-performing reasoning-oriented language models. The datasets are publicly available on Hugging FaceDatasets are available on Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.

Не все правильные ответы равны: почему источник дистилляции имеет значение

Not All Correct Answers Are Equal: Why Your Distillation Source Matters

Аннотация

Support