De zoektocht naar efficiënt redeneren: een data-gecentreerde benchmark voor CoT-distillatie
The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation
May 24, 2025
Auteurs: Ruichen Zhang, Rana Muhammad Shahroz Khan, Zhen Tan, Dawei Li, Song Wang, Tianlong Chen
cs.AI
Samenvatting
Data-centrische distillatie, inclusief data-augmentatie, selectie en
menging, biedt een veelbelovende weg om kleinere, efficiëntere student
Large Language Models (LLMs) te creëren die sterke redeneervaardigheden behouden. Er ontbreekt echter nog een uitgebreide benchmark om het effect van elke distillatiebenadering systematisch te beoordelen. Dit artikel introduceert DC-CoT, de eerste data-centrische benchmark die data-manipulatie in chain-of-thought (CoT) distillatie onderzoekt vanuit methodologisch, model- en dataperspectief. Door gebruik te maken van verschillende leraarmodellen (bijv. o4-mini, Gemini-Pro, Claude-3.5) en studentarchitecturen (bijv. 3B, 7B parameters), evalueren we rigoureus de impact van deze data-manipulaties op de prestaties van het studentmodel over meerdere redeneerdatasets, met een focus op in-distribution (IID) en out-of-distribution (OOD) generalisatie, en cross-domein transfer. Onze bevindingen hebben als doel om praktische inzichten te bieden en best practices vast te stellen voor het optimaliseren van CoT-distillatie via data-centrische technieken, wat uiteindelijk de ontwikkeling van toegankelijkere en capabelere redeneermodellen vergemakkelijkt. De dataset is te vinden op https://huggingface.co/datasets/rana-shahroz/DC-COT, terwijl onze code gedeeld wordt op https://anonymous.4open.science/r/DC-COT-FF4C/.
English
Data-centric distillation, including data augmentation, selection, and
mixing, offers a promising path to creating smaller, more efficient student
Large Language Models (LLMs) that retain strong reasoning abilities. However,
there still lacks a comprehensive benchmark to systematically assess the effect
of each distillation approach. This paper introduces DC-CoT, the first
data-centric benchmark that investigates data manipulation in chain-of-thought
(CoT) distillation from method, model and data perspectives. Utilizing various
teacher models (e.g., o4-mini, Gemini-Pro, Claude-3.5) and student
architectures (e.g., 3B, 7B parameters), we rigorously evaluate the impact of
these data manipulations on student model performance across multiple reasoning
datasets, with a focus on in-distribution (IID) and out-of-distribution (OOD)
generalization, and cross-domain transfer. Our findings aim to provide
actionable insights and establish best practices for optimizing CoT
distillation through data-centric techniques, ultimately facilitating the
development of more accessible and capable reasoning models. The dataset can be
found at https://huggingface.co/datasets/rana-shahroz/DC-COT, while our code is
shared in https://anonymous.4open.science/r/DC-COT-FF4C/.