Die Suche nach effizientem Schließen: Ein datenzentrierter Benchmark für CoT-Destillation

papers.abstract

Datenzentrierte Destillation, einschließlich Datenaugmentierung, -auswahl und -mischung, bietet einen vielversprechenden Weg zur Erstellung kleinerer, effizienterer Schüler-Large Language Models (LLMs), die starke Fähigkeiten zur logischen Schlussfolgerung beibehalten. Es fehlt jedoch noch ein umfassender Benchmark, um die Auswirkungen jedes Destillationsansatzes systematisch zu bewerten. Dieses Papier stellt DC-CoT vor, den ersten datenzentrierten Benchmark, der die Datenmanipulation bei der Chain-of-Thought (CoT)-Destillation aus methodischer, modell- und datenbezogener Perspektive untersucht. Unter Verwendung verschiedener Lehrermodelle (z. B. o4-mini, Gemini-Pro, Claude-3.5) und Schülerarchitekturen (z. B. 3B, 7B Parameter) bewerten wir rigoros die Auswirkungen dieser Datenmanipulationen auf die Leistung der Schülermodelle über mehrere logische Schlussfolgerungsdatensätze hinweg, mit einem Fokus auf In-Distribution (IID)- und Out-of-Distribution (OOD)-Generalisierung sowie domänenübergreifenden Transfer. Unsere Ergebnisse sollen umsetzbare Erkenntnisse liefern und Best Practices für die Optimierung der CoT-Destillation durch datenzentrierte Techniken etablieren, um letztendlich die Entwicklung zugänglicherer und leistungsfähigerer Modelle zur logischen Schlussfolgerung zu erleichtern. Der Datensatz ist unter https://huggingface.co/datasets/rana-shahroz/DC-COT zu finden, während unser Code unter https://anonymous.4open.science/r/DC-COT-FF4C/ geteilt wird.

English

Data-centric distillation, including data augmentation, selection, and mixing, offers a promising path to creating smaller, more efficient student Large Language Models (LLMs) that retain strong reasoning abilities. However, there still lacks a comprehensive benchmark to systematically assess the effect of each distillation approach. This paper introduces DC-CoT, the first data-centric benchmark that investigates data manipulation in chain-of-thought (CoT) distillation from method, model and data perspectives. Utilizing various teacher models (e.g., o4-mini, Gemini-Pro, Claude-3.5) and student architectures (e.g., 3B, 7B parameters), we rigorously evaluate the impact of these data manipulations on student model performance across multiple reasoning datasets, with a focus on in-distribution (IID) and out-of-distribution (OOD) generalization, and cross-domain transfer. Our findings aim to provide actionable insights and establish best practices for optimizing CoT distillation through data-centric techniques, ultimately facilitating the development of more accessible and capable reasoning models. The dataset can be found at https://huggingface.co/datasets/rana-shahroz/DC-COT, while our code is shared in https://anonymous.4open.science/r/DC-COT-FF4C/.

Die Suche nach effizientem Schließen: Ein datenzentrierter Benchmark für CoT-Destillation

The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation

papers.abstract

Support