모든 정답이 동등하지 않다: 증류 소스가 중요한 이유
Not All Correct Answers Are Equal: Why Your Distillation Source Matters
May 20, 2025
저자: Xiaoyu Tian, Yunjie Ji, Haotian Wang, Shuaiting Chen, Sitong Zhao, Yiping Peng, Han Zhao, Xiangang Li
cs.AI
초록
증류는 오픈소스 언어 모델의 추론 능력을 향상시키기 위한 실용적이고 효과적인 접근법으로 부상했다. 본 연구에서는 세 가지 최첨단 교사 모델(AM-Thinking-v1, Qwen3-235B-A22B, DeepSeek-R1)에서 검증된 출력을 189만 개의 쿼리로 구성된 공유 코퍼스에서 수집하여 추론 데이터 증류에 대한 대규모 실증 연구를 수행한다. 우리는 세 가지 병렬 데이터셋을 구성하고 그 분포를 분석하여, AM-Thinking-v1으로 증류된 데이터가 더 다양한 토큰 길이와 더 낮은 복잡도를 보인다는 것을 발견했다. 각 데이터셋으로 훈련된 학생 모델은 AIME2024, AIME2025, MATH500, LiveCodeBench 등의 추론 벤치마크에서 평가되었다. AM 기반 모델은 일관되게 최고의 성능을 달성했으며(예: AIME2024에서 84.3, AIME2025에서 72.2, MATH500에서 98.4, LiveCodeBench에서 65.9), 더 어려운 작업에는 더 긴 응답을, 더 쉬운 작업에는 더 짧은 응답을 생성하는 적응형 출력 행동을 보였다. 이러한 결과는 고품질의 검증된 추론 흔적의 가치를 강조한다. 우리는 AM-Thinking-v1과 Qwen3-235B-A22B로 증류된 데이터셋을 공개하여, 개방적이고 고성능의 추론 지향 언어 모델에 대한 미래 연구를 지원한다. 이 데이터셋은 Hugging Face에서 공개적으로 이용 가능하다: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
English
Distillation has emerged as a practical and effective approach to enhance the
reasoning capabilities of open-source language models. In this work, we conduct
a large-scale empirical study on reasoning data distillation by collecting
verified outputs from three state-of-the-art teacher models-AM-Thinking-v1,
Qwen3-235B-A22B, and DeepSeek-R1-on a shared corpus of 1.89 million queries. We
construct three parallel datasets and analyze their distributions, revealing
that AM-Thinking-v1-distilled data exhibits greater token length diversity and
lower perplexity. Student models trained on each dataset are evaluated on
reasoning benchmarks including AIME2024, AIME2025, MATH500, and LiveCodeBench.
The AM-based model consistently achieves the best performance (e.g., 84.3 on
AIME2024, 72.2 on AIME2025, 98.4 on MATH500, and 65.9 on LiveCodeBench) and
demonstrates adaptive output behavior-producing longer responses for harder
tasks and shorter ones for simpler tasks. These findings highlight the value of
high-quality, verified reasoning traces. We release the AM-Thinking-v1 and
Qwen3-235B-A22B distilled datasets to support future research on open and
high-performing reasoning-oriented language models. The datasets are publicly
available on Hugging FaceDatasets are available on Hugging Face:
\href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled},
https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.Summary
AI-Generated Summary