ChatPaper.aiChatPaper

CoT-Valve: Ajuste de Cadena de Pensamiento Compresible por Longitud

CoT-Valve: Length-Compressible Chain-of-Thought Tuning

February 13, 2025
Autores: Xinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang
cs.AI

Resumen

Chain-of-Thought mejora significativamente la capacidad de razonamiento de un modelo, pero también conlleva un aumento considerable en los costos de inferencia debido a cadenas largas. Con la observación de que la ruta de razonamiento puede comprimirse fácilmente en tareas sencillas pero tiene dificultades en tareas difíciles, exploramos la viabilidad de controlar elásticamente la longitud de las rutas de razonamiento con un solo modelo, reduciendo así la sobrecarga de inferencia de modelos de razonamiento de forma dinámica según la dificultad de la tarea. Presentamos una nueva estrategia de ajuste e inferencia llamada CoT-Valve, diseñada para permitir que los modelos generen cadenas de razonamiento de longitudes variables. Para lograr esto, proponemos identificar una dirección en el espacio de parámetros que, al manipularse, pueda controlar efectivamente la longitud de CoT generada. Además, demostramos que esta propiedad es valiosa para comprimir la cadena de razonamiento. Construimos conjuntos de datos con cadenas desde largas hasta cortas para las mismas preguntas y exploramos dos estrategias mejoradas para CoT-Valve: (1) un método preciso de ajuste de CoT compresible en longitud, y (2) un enfoque progresivo de compresión de longitud de cadena. Nuestros experimentos muestran que CoT-Valve permite de manera exitosa la controlabilidad y compresibilidad de la cadena, y muestra un mejor rendimiento que el control basado en indicaciones. Aplicamos este método a QwQ-32B-Preview, reduciendo las cadenas de razonamiento en GSM8K de 741 a 225 tokens con una ligera disminución de rendimiento (95.07% a 94.92%) y en AIME de 6827 a 4629 tokens, con solo una respuesta incorrecta adicional.
English
Chain-of-Thought significantly enhances a model's reasoning capability, but it also comes with a considerable increase in inference costs due to long chains. With the observation that the reasoning path can be easily compressed under easy tasks but struggle on hard tasks, we explore the feasibility of elastically controlling the length of reasoning paths with only one model, thereby reducing the inference overhead of reasoning models dynamically based on task difficulty. We introduce a new tuning and inference strategy named CoT-Valve, designed to allow models to generate reasoning chains of varying lengths. To achieve this, we propose to identify a direction in the parameter space that, when manipulated, can effectively control the length of generated CoT. Moreover, we show that this property is valuable for compressing the reasoning chain. We construct datasets with chains from long to short for the same questions and explore two enhanced strategies for CoT-Valve: (1) a precise length-compressible CoT tuning method, and (2) a progressive chain length compression approach. Our experiments show that CoT-Valve successfully enables controllability and compressibility of the chain and shows better performance than the prompt-based control. We applied this method to QwQ-32B-Preview, reducing reasoning chains on GSM8K from 741 to 225 tokens with a minor performance drop (95.07% to 94.92%) and on AIME from 6827 to 4629 tokens, with only one additional incorrect answer.

Summary

AI-Generated Summary

PDF142February 14, 2025