Beknopt Redeneren, Grote Winsten: Het Snoeien van Lange Redeneersporen met Moeilijkheidsbewuste Prompting
Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting
May 26, 2025
Auteurs: Yifan Wu, Jingze Shi, Bingheng Wu, Jiayi Zhang, Xiaotian Lin, Nan Tang, Yuyu Luo
cs.AI
Samenvatting
Bestaande chain-of-thought (CoT) distillatiemethoden kunnen redeneervaardigheden effectief overbrengen naar basismodellen, maar hebben te kampen met twee belangrijke beperkingen: overmatige uitgebreidheid van redeneersporen en onvoldoende aanpassingsvermogen aan probleemcomplexiteit. Lange redeneersporen verhogen de inferentiekosten aanzienlijk, en uniforme-lengte oplossingen voorkomen dat basismodellen adaptieve redeneerstrategieën leren. Om deze problemen aan te pakken, stellen we een difficulty-aware prompting (DAP) methode voor om redeneersporen dynamisch te verkorten zonder prestatieverlies. In onze aanpak beoordeelt een groot leraarmodel eerst de complexiteit van elk probleem en herschrijft vervolgens zijn redeneersporen naar een geschikte kortere lengte, wat resulteert in beknopte maar complete redeneersporen. Door gebruik te maken van de DAP-pipeline hebben we een gedistilleerde dataset genaamd LiteCoT samengesteld, bestaande uit 100K beknopte redeneervoorbeelden, met oplossingen die gemiddeld slechts 720 tokens bevatten (een orde van grootte korter dan typische CoTs). Met LiteCoT hebben we een nieuwe familie van redeneermodellen gedistilleerd, genaamd Liter (1.5B, 7B en 32B), gebaseerd op de Qwen2.5-architectuur. Experimenten tonen aan dat een studentmodel dat is afgestemd op slechts 100K van deze op complexiteit gesnoeide CoT-voorbeelden, een model overtreft dat is gedistilleerd op 800K originele Lange CoT-voorbeelden, terwijl de trainings- en inferentiekosten aanzienlijk worden verlaagd. Onze methode generaliseert ook goed: over 11 diverse benchmarks bereiken de kortere difficulty-aware CoTs een gelijke of betere nauwkeurigheid dan Lange ketens, met veel minder tokens. Bijvoorbeeld, op de uitdagende AIME24-examens bereikt onze aanpak 74.2% Pass@1 met slechts ongeveer 5K inferentietokens, wat andere methoden overtreft die veel meer tokens verbruiken. Onze code en data zijn beschikbaar op https://github.com/Evanwu1125/LiteCoT.
English
Existing chain-of-thought (CoT) distillation methods can effectively transfer
reasoning abilities to base models but suffer from two major limitations:
excessive verbosity of reasoning traces and inadequate adaptability to problem
difficulty. Long reasoning traces significantly increase inference costs, and
uniform-length solutions prevent base models from learning adaptive reasoning
strategies. To address these issues, we propose a difficulty-aware prompting
(DAP) method to dynamically shorten reasoning traces without performance loss.
In our approach, a large teacher model first judges each problem's difficulty
and then rewrites its reasoning traces to an appropriate shorter length,
yielding concise yet complete reasoning traces. Leveraging the DAP pipeline, we
curate a distilled dataset called LiteCoT consisting of 100K concise reasoning
examples, with solutions averaging only 720 tokens (an order of magnitude
shorter than typical CoTs). Using LiteCoT, we distilled a new family of
reasoning models called Liter (1.5B, 7B, and 32B) based on the Qwen2.5
architecture. Experiments show that a student model fine-tuned on just 100K of
these difficulty-pruned CoT samples outperforms a model distilled on 800K
original Long CoT samples, while significantly reducing training and inference
costs. Our method also generalizes well: across 11 diverse benchmarks, the
shorter difficulty-aware CoTs achieve equal or better accuracy than Long
chains, using far fewer tokens. For example, on the challenging AIME24 exam,
our approach reaches 74.2% Pass@1 using only about 5K inference tokens,
surpassing other methods that consume many more tokens. Our code and data are
available at https://github.com/Evanwu1125/LiteCoT.