CoT-Valve: Ajuste de Cadeia de Pensamento Comprimível por Comprimento
CoT-Valve: Length-Compressible Chain-of-Thought Tuning
February 13, 2025
Autores: Xinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang
cs.AI
Resumo
A técnica Chain-of-Thought melhora significativamente a capacidade de raciocínio de um modelo, mas também acarreta um aumento considerável nos custos de inferência devido a cadeias longas. Com a observação de que o caminho de raciocínio pode ser facilmente comprimido em tarefas simples, mas enfrenta dificuldades em tarefas complexas, exploramos a viabilidade de controlar elasticamente o comprimento dos caminhos de raciocínio com apenas um modelo, reduzindo assim o overhead de inferência de modelos de raciocínio dinamicamente com base na dificuldade da tarefa. Introduzimos uma nova estratégia de ajuste e inferência chamada CoT-Valve, projetada para permitir que os modelos gerem cadeias de raciocínio de comprimentos variados. Para alcançar isso, propomos identificar uma direção no espaço de parâmetros que, quando manipulada, pode controlar efetivamente o comprimento do CoT gerado. Além disso, demonstramos que essa propriedade é valiosa para comprimir a cadeia de raciocínio. Construímos conjuntos de dados com cadeias de longas a curtas para as mesmas perguntas e exploramos duas estratégias aprimoradas para o CoT-Valve: (1) um método de ajuste de CoT precisamente compressível e (2) uma abordagem progressiva de compressão do comprimento da cadeia. Nossos experimentos mostram que o CoT-Valve permite com sucesso a controlabilidade e compressibilidade da cadeia, apresentando melhor desempenho do que o controle baseado em prompts. Aplicamos esse método ao QwQ-32B-Preview, reduzindo as cadeias de raciocínio no GSM8K de 741 para 225 tokens com uma leve queda de desempenho (95,07% para 94,92%) e no AIME de 6827 para 4629 tokens, com apenas uma resposta incorreta adicional.
English
Chain-of-Thought significantly enhances a model's reasoning capability, but
it also comes with a considerable increase in inference costs due to long
chains. With the observation that the reasoning path can be easily compressed
under easy tasks but struggle on hard tasks, we explore the feasibility of
elastically controlling the length of reasoning paths with only one model,
thereby reducing the inference overhead of reasoning models dynamically based
on task difficulty. We introduce a new tuning and inference strategy named
CoT-Valve, designed to allow models to generate reasoning chains of varying
lengths. To achieve this, we propose to identify a direction in the parameter
space that, when manipulated, can effectively control the length of generated
CoT. Moreover, we show that this property is valuable for compressing the
reasoning chain. We construct datasets with chains from long to short for the
same questions and explore two enhanced strategies for CoT-Valve: (1) a precise
length-compressible CoT tuning method, and (2) a progressive chain length
compression approach. Our experiments show that CoT-Valve successfully enables
controllability and compressibility of the chain and shows better performance
than the prompt-based control. We applied this method to QwQ-32B-Preview,
reducing reasoning chains on GSM8K from 741 to 225 tokens with a minor
performance drop (95.07% to 94.92%) and on AIME from 6827 to 4629 tokens, with
only one additional incorrect answer.Summary
AI-Generated Summary