ChatPaper.aiChatPaper

CoT-Ventil: Längenkomprimierbare Gedankenkettenabstimmung

CoT-Valve: Length-Compressible Chain-of-Thought Tuning

February 13, 2025
Autoren: Xinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang
cs.AI

Zusammenfassung

Die Chain-of-Thought verbessert signifikant die Argumentationsfähigkeit eines Modells, geht jedoch auch mit erheblich höheren Inferenzkosten aufgrund langer Ketten einher. Mit der Beobachtung, dass der Argumentationspfad unter einfachen Aufgaben leicht komprimiert werden kann, jedoch bei schwierigen Aufgaben Schwierigkeiten auftreten, untersuchen wir die Machbarkeit, die Länge der Argumentationspfade elastisch mit nur einem Modell zu kontrollieren, um somit die Inferenzüberlastung von Argumentationsmodellen dynamisch basierend auf der Aufgabenschwierigkeit zu reduzieren. Wir stellen eine neue Abstimmungs- und Inferenzstrategie namens CoT-Valve vor, die es Modellen ermöglicht, Argumentationsketten unterschiedlicher Länge zu generieren. Um dies zu erreichen, schlagen wir vor, eine Richtung im Parameterbereich zu identifizieren, die, wenn manipuliert, die Länge des generierten CoT effektiv kontrollieren kann. Darüber hinaus zeigen wir, dass diese Eigenschaft wertvoll ist, um die Argumentationskette zu komprimieren. Wir erstellen Datensätze mit Ketten von lang bis kurz für dieselben Fragen und untersuchen zwei verbesserte Strategien für CoT-Valve: (1) eine präzise längenkomprimierbare CoT-Abstimmungsmethode und (2) einen progressiven Ansatz zur Längenkompression der Kette. Unsere Experimente zeigen, dass CoT-Valve erfolgreich die Steuerbarkeit und Komprimierbarkeit der Kette ermöglicht und eine bessere Leistung als die aufgabenbasierte Steuerung zeigt. Wir haben diese Methode auf QwQ-32B-Preview angewendet, wodurch die Argumentationsketten auf GSM8K von 741 auf 225 Tokens mit einem geringfügigen Leistungsabfall (95,07 % auf 94,92 %) und auf AIME von 6827 auf 4629 Tokens reduziert wurden, wobei nur eine zusätzliche falsche Antwort erfolgte.
English
Chain-of-Thought significantly enhances a model's reasoning capability, but it also comes with a considerable increase in inference costs due to long chains. With the observation that the reasoning path can be easily compressed under easy tasks but struggle on hard tasks, we explore the feasibility of elastically controlling the length of reasoning paths with only one model, thereby reducing the inference overhead of reasoning models dynamically based on task difficulty. We introduce a new tuning and inference strategy named CoT-Valve, designed to allow models to generate reasoning chains of varying lengths. To achieve this, we propose to identify a direction in the parameter space that, when manipulated, can effectively control the length of generated CoT. Moreover, we show that this property is valuable for compressing the reasoning chain. We construct datasets with chains from long to short for the same questions and explore two enhanced strategies for CoT-Valve: (1) a precise length-compressible CoT tuning method, and (2) a progressive chain length compression approach. Our experiments show that CoT-Valve successfully enables controllability and compressibility of the chain and shows better performance than the prompt-based control. We applied this method to QwQ-32B-Preview, reducing reasoning chains on GSM8K from 741 to 225 tokens with a minor performance drop (95.07% to 94.92%) and on AIME from 6827 to 4629 tokens, with only one additional incorrect answer.

Summary

AI-Generated Summary

PDF142February 14, 2025