La Ricerca di un Ragionamento Efficiente: Un Benchmark Centrato sui Dati per la Distillazione di CoT
The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation
May 24, 2025
Autori: Ruichen Zhang, Rana Muhammad Shahroz Khan, Zhen Tan, Dawei Li, Song Wang, Tianlong Chen
cs.AI
Abstract
La distillazione data-centric, che include l'aumento, la selezione e la miscelazione dei dati, offre una strada promettente per creare modelli linguistici di grandi dimensioni (LLM) studente più piccoli ed efficienti che mantengono forti capacità di ragionamento. Tuttavia, manca ancora un benchmark completo per valutare sistematicamente l'effetto di ciascun approccio di distillazione. Questo articolo introduce DC-CoT, il primo benchmark data-centric che indaga la manipolazione dei dati nella distillazione a catena di pensiero (CoT) da prospettive metodologiche, modellistiche e dei dati. Utilizzando vari modelli insegnanti (ad esempio, o4-mini, Gemini-Pro, Claude-3.5) e architetture studente (ad esempio, 3B, 7B parametri), valutiamo rigorosamente l'impatto di queste manipolazioni dei dati sulle prestazioni del modello studente su più dataset di ragionamento, con un focus sulla generalizzazione in-distribuzione (IID) e out-of-distribuzione (OOD), e sul trasferimento cross-dominio. I nostri risultati mirano a fornire intuizioni pratiche e stabilire le migliori pratiche per ottimizzare la distillazione CoT attraverso tecniche data-centric, facilitando infine lo sviluppo di modelli di ragionamento più accessibili e capaci. Il dataset è disponibile all'indirizzo https://huggingface.co/datasets/rana-shahroz/DC-COT, mentre il nostro codice è condiviso su https://anonymous.4open.science/r/DC-COT-FF4C/.
English
Data-centric distillation, including data augmentation, selection, and
mixing, offers a promising path to creating smaller, more efficient student
Large Language Models (LLMs) that retain strong reasoning abilities. However,
there still lacks a comprehensive benchmark to systematically assess the effect
of each distillation approach. This paper introduces DC-CoT, the first
data-centric benchmark that investigates data manipulation in chain-of-thought
(CoT) distillation from method, model and data perspectives. Utilizing various
teacher models (e.g., o4-mini, Gemini-Pro, Claude-3.5) and student
architectures (e.g., 3B, 7B parameters), we rigorously evaluate the impact of
these data manipulations on student model performance across multiple reasoning
datasets, with a focus on in-distribution (IID) and out-of-distribution (OOD)
generalization, and cross-domain transfer. Our findings aim to provide
actionable insights and establish best practices for optimizing CoT
distillation through data-centric techniques, ultimately facilitating the
development of more accessible and capable reasoning models. The dataset can be
found at https://huggingface.co/datasets/rana-shahroz/DC-COT, while our code is
shared in https://anonymous.4open.science/r/DC-COT-FF4C/.