В поисках эффективного рассуждения: ориентированный на данные бенчмарк для дистилляции цепочек рассуждений (CoT)
The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation
May 24, 2025
Авторы: Ruichen Zhang, Rana Muhammad Shahroz Khan, Zhen Tan, Dawei Li, Song Wang, Tianlong Chen
cs.AI
Аннотация
Центрированная на данных дистилляция, включающая аугментацию, отбор и смешивание данных, предлагает перспективный путь для создания более компактных и эффективных студенческих моделей больших языковых моделей (LLM), сохраняющих высокие способности к рассуждению. Однако до сих пор отсутствует всеобъемлющий бенчмарк для систематической оценки влияния каждого подхода к дистилляции. В данной работе представлен DC-CoT — первый центрированный на данных бенчмарк, который исследует манипуляции с данными в дистилляции цепочки рассуждений (CoT) с точки зрения методов, моделей и данных. Используя различные учительские модели (например, o4-mini, Gemini-Pro, Claude-3.5) и студенческие архитектуры (например, 3B, 7B параметров), мы тщательно оцениваем влияние этих манипуляций с данными на производительность студенческих моделей на множестве наборов данных для рассуждений, с акцентом на обобщение внутри распределения (IID) и за его пределами (OOD), а также на кросс-доменный перенос. Наши результаты направлены на предоставление практических рекомендаций и установление лучших практик для оптимизации CoT-дистилляции с использованием центрированных на данных техник, что в конечном итоге способствует разработке более доступных и мощных моделей для рассуждений. Набор данных доступен по адресу https://huggingface.co/datasets/rana-shahroz/DC-COT, а наш код опубликован на https://anonymous.4open.science/r/DC-COT-FF4C/.
English
Data-centric distillation, including data augmentation, selection, and
mixing, offers a promising path to creating smaller, more efficient student
Large Language Models (LLMs) that retain strong reasoning abilities. However,
there still lacks a comprehensive benchmark to systematically assess the effect
of each distillation approach. This paper introduces DC-CoT, the first
data-centric benchmark that investigates data manipulation in chain-of-thought
(CoT) distillation from method, model and data perspectives. Utilizing various
teacher models (e.g., o4-mini, Gemini-Pro, Claude-3.5) and student
architectures (e.g., 3B, 7B parameters), we rigorously evaluate the impact of
these data manipulations on student model performance across multiple reasoning
datasets, with a focus on in-distribution (IID) and out-of-distribution (OOD)
generalization, and cross-domain transfer. Our findings aim to provide
actionable insights and establish best practices for optimizing CoT
distillation through data-centric techniques, ultimately facilitating the
development of more accessible and capable reasoning models. The dataset can be
found at https://huggingface.co/datasets/rana-shahroz/DC-COT, while our code is
shared in https://anonymous.4open.science/r/DC-COT-FF4C/.Summary
AI-Generated Summary