Valvola CoT: Taratura a Catena di Pensiero Comprimibile in Lunghezza
CoT-Valve: Length-Compressible Chain-of-Thought Tuning
February 13, 2025
Autori: Xinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang
cs.AI
Abstract
La Catena di Pensiero migliora significativamente la capacità di ragionamento di un modello, ma comporta anche un notevole aumento dei costi di inferenza a causa delle catene lunghe. Con l'osservazione che il percorso di ragionamento può essere facilmente compresso sotto compiti facili ma fatica su compiti difficili, esploriamo la fattibilità di controllare elasticamente la lunghezza dei percorsi di ragionamento con un solo modello, riducendo così il sovraccarico di inferenza dei modelli di ragionamento in modo dinamico in base alla difficoltà del compito. Introduciamo una nuova strategia di taratura e inferenza chiamata CoT-Valve, progettata per consentire ai modelli di generare catene di ragionamento di lunghezze variabili. Per raggiungere questo obiettivo, proponiamo di identificare una direzione nello spazio dei parametri che, quando manipolata, può controllare efficacemente la lunghezza del CoT generato. Inoltre, dimostriamo che questa proprietà è preziosa per comprimere la catena di ragionamento. Costruiamo dataset con catene da lunghe a corte per le stesse domande ed esploriamo due strategie potenziate per CoT-Valve: (1) un metodo di taratura CoT precisamente compressibile e (2) un approccio progressivo alla compressione della lunghezza della catena. I nostri esperimenti mostrano che CoT-Valve consente con successo la controllabilità e la compressibilità della catena e mostra una migliore performance rispetto al controllo basato sulla richiesta. Abbiamo applicato questo metodo a QwQ-32B-Preview, riducendo le catene di ragionamento su GSM8K da 741 a 225 token con una leggera diminuzione delle prestazioni (95,07% a 94,92%) e su AIME da 6827 a 4629 token, con un solo ulteriore risposta errata.
English
Chain-of-Thought significantly enhances a model's reasoning capability, but
it also comes with a considerable increase in inference costs due to long
chains. With the observation that the reasoning path can be easily compressed
under easy tasks but struggle on hard tasks, we explore the feasibility of
elastically controlling the length of reasoning paths with only one model,
thereby reducing the inference overhead of reasoning models dynamically based
on task difficulty. We introduce a new tuning and inference strategy named
CoT-Valve, designed to allow models to generate reasoning chains of varying
lengths. To achieve this, we propose to identify a direction in the parameter
space that, when manipulated, can effectively control the length of generated
CoT. Moreover, we show that this property is valuable for compressing the
reasoning chain. We construct datasets with chains from long to short for the
same questions and explore two enhanced strategies for CoT-Valve: (1) a precise
length-compressible CoT tuning method, and (2) a progressive chain length
compression approach. Our experiments show that CoT-Valve successfully enables
controllability and compressibility of the chain and shows better performance
than the prompt-based control. We applied this method to QwQ-32B-Preview,
reducing reasoning chains on GSM8K from 741 to 225 tokens with a minor
performance drop (95.07% to 94.92%) and on AIME from 6827 to 4629 tokens, with
only one additional incorrect answer.Summary
AI-Generated Summary