CoT-Valve: Настройка цепочки мыслей с возможностью сжатия длины
CoT-Valve: Length-Compressible Chain-of-Thought Tuning
February 13, 2025
Авторы: Xinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang
cs.AI
Аннотация
Цепочка мыслей значительно улучшает способность модели к рассуждениям, но также сопряжена с значительным увеличением стоимости вывода из-за длинных цепочек. Учитывая, что путь рассуждений легко сжимается при выполнении простых задач, но затруднен при выполнении сложных задач, мы исследуем возможность эластичного контроля длины путей рассуждений с помощью одной модели, тем самым уменьшая накладные расходы на вывод рассуждающих моделей динамически в зависимости от сложности задачи. Мы представляем новую стратегию настройки и вывода под названием CoT-Valve, разработанную для того, чтобы позволить моделям генерировать цепочки рассуждений различной длины. Для достижения этой цели мы предлагаем выявить направление в пространстве параметров, которое, при манипулировании, может эффективно контролировать длину созданных цепочек мыслей. Более того, мы показываем, что эта особенность ценна для сжатия цепочки рассуждений. Мы создаем наборы данных с цепочками от длинных до коротких для одних и тех же вопросов и исследуем две улучшенные стратегии для CoT-Valve: (1) точный метод настройки CoT с возможностью сжатия длины и (2) пошаговый подход к сжатию длины цепочки. Наши эксперименты показывают, что CoT-Valve успешно обеспечивает управляемость и сжимаемость цепочки и демонстрирует лучшую производительность, чем управление на основе подсказок. Мы применили этот метод к QwQ-32B-Preview, сократив цепочки рассуждений на GSM8K с 741 до 225 токенов с незначительным снижением производительности (с 95.07% до 94.92%) и на AIME с 6827 до 4629 токенов, с только одним дополнительным неверным ответом.
English
Chain-of-Thought significantly enhances a model's reasoning capability, but
it also comes with a considerable increase in inference costs due to long
chains. With the observation that the reasoning path can be easily compressed
under easy tasks but struggle on hard tasks, we explore the feasibility of
elastically controlling the length of reasoning paths with only one model,
thereby reducing the inference overhead of reasoning models dynamically based
on task difficulty. We introduce a new tuning and inference strategy named
CoT-Valve, designed to allow models to generate reasoning chains of varying
lengths. To achieve this, we propose to identify a direction in the parameter
space that, when manipulated, can effectively control the length of generated
CoT. Moreover, we show that this property is valuable for compressing the
reasoning chain. We construct datasets with chains from long to short for the
same questions and explore two enhanced strategies for CoT-Valve: (1) a precise
length-compressible CoT tuning method, and (2) a progressive chain length
compression approach. Our experiments show that CoT-Valve successfully enables
controllability and compressibility of the chain and shows better performance
than the prompt-based control. We applied this method to QwQ-32B-Preview,
reducing reasoning chains on GSM8K from 741 to 225 tokens with a minor
performance drop (95.07% to 94.92%) and on AIME from 6827 to 4629 tokens, with
only one additional incorrect answer.Summary
AI-Generated Summary