CoT-Valve : Accordage en chaîne de pensée compressible en longueur
CoT-Valve: Length-Compressible Chain-of-Thought Tuning
February 13, 2025
Auteurs: Xinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang
cs.AI
Résumé
La Chaîne de Pensée améliore significativement la capacité de raisonnement d'un modèle, mais entraîne également une augmentation considérable des coûts d'inférence en raison des longues chaînes. En observant que le chemin de raisonnement peut être facilement compressé pour les tâches simples mais poser problème pour les tâches difficiles, nous explorons la faisabilité de contrôler élastiquement la longueur des chemins de raisonnement avec un seul modèle, réduisant ainsi la surcharge d'inférence des modèles de raisonnement de manière dynamique en fonction de la difficulté de la tâche. Nous introduisons une nouvelle stratégie d'ajustement et d'inférence appelée CoT-Valve, conçue pour permettre aux modèles de générer des chaînes de raisonnement de longueurs variables. Pour y parvenir, nous proposons d'identifier une direction dans l'espace des paramètres qui, une fois manipulée, peut contrôler efficacement la longueur de CoT généré. De plus, nous montrons que cette propriété est précieuse pour la compression de la chaîne de raisonnement. Nous construisons des ensembles de données avec des chaînes de longues à courtes pour les mêmes questions et explorons deux stratégies améliorées pour CoT-Valve : (1) une méthode d'ajustement CoT précisément compressible en longueur, et (2) une approche progressive de compression de la longueur de la chaîne. Nos expériences montrent que CoT-Valve permet avec succès la contrôlabilité et la compressibilité de la chaîne et affiche de meilleures performances que le contrôle basé sur les instructions. Nous avons appliqué cette méthode à QwQ-32B-Preview, réduisant les chaînes de raisonnement sur GSM8K de 741 à 225 jetons avec une légère baisse de performance (95,07 % à 94,92 %) et sur AIME de 6827 à 4629 jetons, avec seulement une réponse incorrecte supplémentaire.
English
Chain-of-Thought significantly enhances a model's reasoning capability, but
it also comes with a considerable increase in inference costs due to long
chains. With the observation that the reasoning path can be easily compressed
under easy tasks but struggle on hard tasks, we explore the feasibility of
elastically controlling the length of reasoning paths with only one model,
thereby reducing the inference overhead of reasoning models dynamically based
on task difficulty. We introduce a new tuning and inference strategy named
CoT-Valve, designed to allow models to generate reasoning chains of varying
lengths. To achieve this, we propose to identify a direction in the parameter
space that, when manipulated, can effectively control the length of generated
CoT. Moreover, we show that this property is valuable for compressing the
reasoning chain. We construct datasets with chains from long to short for the
same questions and explore two enhanced strategies for CoT-Valve: (1) a precise
length-compressible CoT tuning method, and (2) a progressive chain length
compression approach. Our experiments show that CoT-Valve successfully enables
controllability and compressibility of the chain and shows better performance
than the prompt-based control. We applied this method to QwQ-32B-Preview,
reducing reasoning chains on GSM8K from 741 to 225 tokens with a minor
performance drop (95.07% to 94.92%) and on AIME from 6827 to 4629 tokens, with
only one additional incorrect answer.Summary
AI-Generated Summary