効率的な推論の追求:CoT蒸留のためのデータ中心ベンチマーク
The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation
May 24, 2025
著者: Ruichen Zhang, Rana Muhammad Shahroz Khan, Zhen Tan, Dawei Li, Song Wang, Tianlong Chen
cs.AI
要旨
データ中心の蒸留、すなわちデータ拡張、選択、混合を含む手法は、強力な推論能力を保持したまま、より小型で効率的な学生用大規模言語モデル(LLM)を作成するための有望な道筋を提供します。しかし、各蒸留手法の効果を体系的に評価する包括的なベンチマークはまだ不足しています。本論文では、DC-CoTを紹介します。これは、連鎖的思考(CoT)蒸留におけるデータ操作を、手法、モデル、データの観点から調査する初のデータ中心ベンチマークです。様々な教師モデル(例:o4-mini、Gemini-Pro、Claude-3.5)と学生アーキテクチャ(例:3B、7Bパラメータ)を活用し、これらのデータ操作が学生モデルの性能に及ぼす影響を、複数の推論データセットにわたって厳密に評価します。特に、分布内(IID)および分布外(OOD)汎化、そしてクロスドメイン転移に焦点を当てています。我々の研究成果は、データ中心の技術を通じてCoT蒸留を最適化するための実践的な洞察を提供し、よりアクセスしやすく能力の高い推論モデルの開発を促進することを目指しています。データセットはhttps://huggingface.co/datasets/rana-shahroz/DC-COTで公開されており、コードはhttps://anonymous.4open.science/r/DC-COT-FF4C/で共有されています。
English
Data-centric distillation, including data augmentation, selection, and
mixing, offers a promising path to creating smaller, more efficient student
Large Language Models (LLMs) that retain strong reasoning abilities. However,
there still lacks a comprehensive benchmark to systematically assess the effect
of each distillation approach. This paper introduces DC-CoT, the first
data-centric benchmark that investigates data manipulation in chain-of-thought
(CoT) distillation from method, model and data perspectives. Utilizing various
teacher models (e.g., o4-mini, Gemini-Pro, Claude-3.5) and student
architectures (e.g., 3B, 7B parameters), we rigorously evaluate the impact of
these data manipulations on student model performance across multiple reasoning
datasets, with a focus on in-distribution (IID) and out-of-distribution (OOD)
generalization, and cross-domain transfer. Our findings aim to provide
actionable insights and establish best practices for optimizing CoT
distillation through data-centric techniques, ultimately facilitating the
development of more accessible and capable reasoning models. The dataset can be
found at https://huggingface.co/datasets/rana-shahroz/DC-COT, while our code is
shared in https://anonymous.4open.science/r/DC-COT-FF4C/.Summary
AI-Generated Summary