ChatPaper.aiChatPaper

La quête d'un raisonnement efficace : Un benchmark centré sur les données pour la distillation de CoT

The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation

May 24, 2025
Auteurs: Ruichen Zhang, Rana Muhammad Shahroz Khan, Zhen Tan, Dawei Li, Song Wang, Tianlong Chen
cs.AI

Résumé

La distillation centrée sur les données, incluant l'augmentation, la sélection et le mélange de données, offre une voie prometteuse pour créer des modèles de langage de grande taille (LLMs) étudiants plus petits et plus efficaces, tout en conservant de solides capacités de raisonnement. Cependant, il manque encore un benchmark complet pour évaluer systématiquement l'effet de chaque approche de distillation. Cet article présente DC-CoT, le premier benchmark centré sur les données qui étudie la manipulation des données dans la distillation de chaînes de pensée (CoT) sous les angles de la méthode, du modèle et des données. En utilisant divers modèles enseignants (par exemple, o4-mini, Gemini-Pro, Claude-3.5) et architectures étudiantes (par exemple, 3B, 7B paramètres), nous évaluons rigoureusement l'impact de ces manipulations de données sur la performance des modèles étudiants à travers plusieurs ensembles de données de raisonnement, en mettant l'accent sur la généralisation en distribution (IID) et hors distribution (OOD), ainsi que sur le transfert inter-domaines. Nos résultats visent à fournir des insights actionnables et à établir les meilleures pratiques pour optimiser la distillation CoT grâce à des techniques centrées sur les données, facilitant ainsi le développement de modèles de raisonnement plus accessibles et performants. Le jeu de données est disponible à l'adresse https://huggingface.co/datasets/rana-shahroz/DC-COT, tandis que notre code est partagé sur https://anonymous.4open.science/r/DC-COT-FF4C/.
English
Data-centric distillation, including data augmentation, selection, and mixing, offers a promising path to creating smaller, more efficient student Large Language Models (LLMs) that retain strong reasoning abilities. However, there still lacks a comprehensive benchmark to systematically assess the effect of each distillation approach. This paper introduces DC-CoT, the first data-centric benchmark that investigates data manipulation in chain-of-thought (CoT) distillation from method, model and data perspectives. Utilizing various teacher models (e.g., o4-mini, Gemini-Pro, Claude-3.5) and student architectures (e.g., 3B, 7B parameters), we rigorously evaluate the impact of these data manipulations on student model performance across multiple reasoning datasets, with a focus on in-distribution (IID) and out-of-distribution (OOD) generalization, and cross-domain transfer. Our findings aim to provide actionable insights and establish best practices for optimizing CoT distillation through data-centric techniques, ultimately facilitating the development of more accessible and capable reasoning models. The dataset can be found at https://huggingface.co/datasets/rana-shahroz/DC-COT, while our code is shared in https://anonymous.4open.science/r/DC-COT-FF4C/.

Summary

AI-Generated Summary

PDF123May 27, 2025