CoT-Klep: Lengte-Comprimeerbare Keten-van-Gedachte Afstelling
CoT-Valve: Length-Compressible Chain-of-Thought Tuning
February 13, 2025
Auteurs: Xinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang
cs.AI
Samenvatting
Chain-of-Thought verbetert aanzienlijk de redeneervaardigheid van een model, maar gaat ook gepaard met aanzienlijk hogere inferentiekosten als gevolg van lange ketens. Met de observatie dat het redeneerpad gemakkelijk kan worden gecomprimeerd bij eenvoudige taken, maar moeilijkheden ondervindt bij moeilijke taken, onderzoeken we de haalbaarheid van het elastisch controleren van de lengte van redeneerpaden met slechts één model, waardoor de inferentie-overhead van redeneermodellen dynamisch kan worden verminderd op basis van taakmoeilijkheid. We introduceren een nieuwe afstemmings- en inferentiestrategie genaamd CoT-Valve, ontworpen om modellen in staat te stellen redeneerketens van variabele lengtes te genereren. Om dit te bereiken, stellen we voor een richting in de parameterruimte te identificeren die, wanneer gemanipuleerd, effectief de lengte van gegenereerde CoT kan controleren. Bovendien tonen we aan dat deze eigenschap waardevol is voor het comprimeren van de redeneerketen. We construeren datasets met ketens van lang tot kort voor dezelfde vragen en verkennen twee verbeterde strategieën voor CoT-Valve: (1) een precieze lengte-comprimeerbare CoT-afstemmingsmethode, en (2) een progressieve benadering voor het comprimeren van ketenlengtes. Onze experimenten tonen aan dat CoT-Valve succesvol controleerbaarheid en comprimeerbaarheid van de keten mogelijk maakt en betere prestaties vertoont dan de op prompt gebaseerde controle. We pasten deze methode toe op QwQ-32B-Preview, waarbij redeneerketens op GSM8K werden teruggebracht van 741 tot 225 tokens met een kleine prestatiedaling (95.07% naar 94.92%) en op AIME van 6827 tot 4629 tokens, met slechts één extra onjuist antwoord.
English
Chain-of-Thought significantly enhances a model's reasoning capability, but
it also comes with a considerable increase in inference costs due to long
chains. With the observation that the reasoning path can be easily compressed
under easy tasks but struggle on hard tasks, we explore the feasibility of
elastically controlling the length of reasoning paths with only one model,
thereby reducing the inference overhead of reasoning models dynamically based
on task difficulty. We introduce a new tuning and inference strategy named
CoT-Valve, designed to allow models to generate reasoning chains of varying
lengths. To achieve this, we propose to identify a direction in the parameter
space that, when manipulated, can effectively control the length of generated
CoT. Moreover, we show that this property is valuable for compressing the
reasoning chain. We construct datasets with chains from long to short for the
same questions and explore two enhanced strategies for CoT-Valve: (1) a precise
length-compressible CoT tuning method, and (2) a progressive chain length
compression approach. Our experiments show that CoT-Valve successfully enables
controllability and compressibility of the chain and shows better performance
than the prompt-based control. We applied this method to QwQ-32B-Preview,
reducing reasoning chains on GSM8K from 741 to 225 tokens with a minor
performance drop (95.07% to 94.92%) and on AIME from 6827 to 4629 tokens, with
only one additional incorrect answer.Summary
AI-Generated Summary