ChatPaper.aiChatPaper

La búsqueda de un razonamiento eficiente: Un punto de referencia centrado en datos para la destilación de CoT

The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation

May 24, 2025
Autores: Ruichen Zhang, Rana Muhammad Shahroz Khan, Zhen Tan, Dawei Li, Song Wang, Tianlong Chen
cs.AI

Resumen

La destilación centrada en datos, que incluye aumento, selección y mezcla de datos, ofrece un camino prometedor para crear modelos de lenguaje grandes (LLMs) estudiantiles más pequeños y eficientes que conserven fuertes capacidades de razonamiento. Sin embargo, aún falta un punto de referencia integral para evaluar sistemáticamente el efecto de cada enfoque de destilación. Este artículo presenta DC-CoT, el primer punto de referencia centrado en datos que investiga la manipulación de datos en la destilación de cadena de pensamiento (CoT) desde las perspectivas de método, modelo y datos. Utilizando varios modelos maestros (por ejemplo, o4-mini, Gemini-Pro, Claude-3.5) y arquitecturas estudiantiles (por ejemplo, 3B, 7B parámetros), evaluamos rigurosamente el impacto de estas manipulaciones de datos en el rendimiento del modelo estudiantil a través de múltiples conjuntos de datos de razonamiento, con un enfoque en la generalización dentro de la distribución (IID) y fuera de la distribución (OOD), y la transferencia entre dominios. Nuestros hallazgos tienen como objetivo proporcionar ideas prácticas y establecer mejores prácticas para optimizar la destilación CoT mediante técnicas centradas en datos, facilitando finalmente el desarrollo de modelos de razonamiento más accesibles y capaces. El conjunto de datos se puede encontrar en https://huggingface.co/datasets/rana-shahroz/DC-COT, mientras que nuestro código se comparte en https://anonymous.4open.science/r/DC-COT-FF4C/.
English
Data-centric distillation, including data augmentation, selection, and mixing, offers a promising path to creating smaller, more efficient student Large Language Models (LLMs) that retain strong reasoning abilities. However, there still lacks a comprehensive benchmark to systematically assess the effect of each distillation approach. This paper introduces DC-CoT, the first data-centric benchmark that investigates data manipulation in chain-of-thought (CoT) distillation from method, model and data perspectives. Utilizing various teacher models (e.g., o4-mini, Gemini-Pro, Claude-3.5) and student architectures (e.g., 3B, 7B parameters), we rigorously evaluate the impact of these data manipulations on student model performance across multiple reasoning datasets, with a focus on in-distribution (IID) and out-of-distribution (OOD) generalization, and cross-domain transfer. Our findings aim to provide actionable insights and establish best practices for optimizing CoT distillation through data-centric techniques, ultimately facilitating the development of more accessible and capable reasoning models. The dataset can be found at https://huggingface.co/datasets/rana-shahroz/DC-COT, while our code is shared in https://anonymous.4open.science/r/DC-COT-FF4C/.

Summary

AI-Generated Summary

PDF123May 27, 2025