A Busca por Raciocínio Eficiente: Um Benchmark Centrado em Dados para a Destilação de CoT
The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation
May 24, 2025
Autores: Ruichen Zhang, Rana Muhammad Shahroz Khan, Zhen Tan, Dawei Li, Song Wang, Tianlong Chen
cs.AI
Resumo
A destilação centrada em dados, incluindo aumento, seleção e mistura de dados, oferece um caminho promissor para a criação de modelos de linguagem grandes (LLMs) estudantis menores e mais eficientes que mantêm fortes habilidades de raciocínio. No entanto, ainda falta um benchmark abrangente para avaliar sistematicamente o efeito de cada abordagem de destilação. Este artigo introduz o DC-CoT, o primeiro benchmark centrado em dados que investiga a manipulação de dados na destilação de cadeia de pensamento (CoT) a partir das perspectivas de método, modelo e dados. Utilizando diversos modelos professores (por exemplo, o4-mini, Gemini-Pro, Claude-3.5) e arquiteturas estudantis (por exemplo, 3B, 7B parâmetros), avaliamos rigorosamente o impacto dessas manipulações de dados no desempenho do modelo estudantil em vários conjuntos de dados de raciocínio, com foco na generalização dentro da distribuição (IID) e fora da distribuição (OOD), e na transferência entre domínios. Nossas descobertas visam fornecer insights acionáveis e estabelecer melhores práticas para otimizar a destilação CoT por meio de técnicas centradas em dados, facilitando, em última análise, o desenvolvimento de modelos de raciocínio mais acessíveis e capazes. O conjunto de dados pode ser encontrado em https://huggingface.co/datasets/rana-shahroz/DC-COT, enquanto nosso código é compartilhado em https://anonymous.4open.science/r/DC-COT-FF4C/.
English
Data-centric distillation, including data augmentation, selection, and
mixing, offers a promising path to creating smaller, more efficient student
Large Language Models (LLMs) that retain strong reasoning abilities. However,
there still lacks a comprehensive benchmark to systematically assess the effect
of each distillation approach. This paper introduces DC-CoT, the first
data-centric benchmark that investigates data manipulation in chain-of-thought
(CoT) distillation from method, model and data perspectives. Utilizing various
teacher models (e.g., o4-mini, Gemini-Pro, Claude-3.5) and student
architectures (e.g., 3B, 7B parameters), we rigorously evaluate the impact of
these data manipulations on student model performance across multiple reasoning
datasets, with a focus on in-distribution (IID) and out-of-distribution (OOD)
generalization, and cross-domain transfer. Our findings aim to provide
actionable insights and establish best practices for optimizing CoT
distillation through data-centric techniques, ultimately facilitating the
development of more accessible and capable reasoning models. The dataset can be
found at https://huggingface.co/datasets/rana-shahroz/DC-COT, while our code is
shared in https://anonymous.4open.science/r/DC-COT-FF4C/.