Het Uitdunnen van het Onverwachte: Efficiënte Coderedenering via Verrassing van de Eerste Token

Samenvatting

Recentelijk hebben Large Reasoning Models (LRMs) opmerkelijke capaciteiten getoond in coderedenering door de lengte van Chain-of-Thought (CoT) op te schalen. Overmatig lange redeneersporen brengen echter aanzienlijke uitdagingen met zich mee op het gebied van trainingskosten, inferentielatentie en implementeerbaarheid. Hoewel verschillende CoT-compressiebenaderingen zijn ontstaan om deze uitdaging aan te pakken, kampen ze met inherente afwegingen: token-niveau methoden verstoren vaak de syntactische en logische samenhang, terwijl stap-niveau methoden gebaseerd op perplexiteit er niet in slagen om de logisch kritieke redeneerstappen betrouwbaar vast te leggen. In dit artikel stellen we ASAP (Anchor-guided, Surprisal-based Pruning) voor, een nieuw grof-naar-fijn raamwerk voor CoT-compressie. ASAP voert eerst anchor-guided pruning uit om de kernredeneringsstructuur te behouden, wat de zoekruimte voor verdere verwerking efficiënt reduceert. Vervolgens maakt het logica-bewuste pruning mogelijk door logisch essentiële redeneerstappen te selecteren op basis van een nieuwe first-token surprisal metriek. Ten slotte leert ASAP modellen om deze beknopte CoTs autonoom te genereren en te benutten tijdens inferentie, waardoor efficiënte redenering in codetaken mogelijk wordt. Experimenten tonen aan dat ASAP state-of-the-art nauwkeurigheid bereikt over meerdere codegeneratiebenchmarks, terwijl de trainings- en inferentiekosten aanzienlijk worden verlaagd. Op de uitdagende LiveCodeBench v4_v5 benchmark reduceert onze aanpak de token-generatie met 23,5% en de inferentielatentie met 43,5% vergeleken met de sterkste baseline, terwijl een competitieve nauwkeurigheid van 36,19% in Pass@1 wordt behaald. Onze resultaten belichten een veelbelovende richting voor het bouwen van krachtige en efficiënte LRMs.

English

Recently, Large Reasoning Models (LRMs) have demonstrated remarkable capabilities in code reasoning by scaling up the length of Chain-of-Thought (CoT). However, excessively long reasoning traces introduce substantial challenges in terms of training cost, inference latency, and deployment feasibility. While various CoT compression approaches have emerged to address this challenge, they face inherent trade-offs: token-level methods often disrupt syntactic and logical coherence, while step-level methods based on perplexity fail to reliably capture the logically critical reasoning steps. In this paper, we propose ASAP (Anchor-guided, Surprisal-based Pruning), a novel coarse-to-fine framework for CoT compression. ASAP first performs anchor-guided pruning to preserve the core reasoning structure, which efficiently reduces the search space for subsequent processing. It then enables a logic-aware pruning by selecting logically essential reasoning steps based on a novel first-token surprisal metric. Finally, ASAP teaches models to autonomously generate and leverage these concise CoTs at inference time, enabling efficient reasoning in coding tasks. Experiments show that ASAP achieves state-of-the-art accuracy across multiple code generation benchmarks while substantially reducing training and inference costs. On the challenging LiveCodeBench v4_v5 benchmark, our approach reduces token generation by 23.5% and inference latency by 43.5% compared to the strongest baseline, while achieving a competitive accuracy of 36.19% in Pass@1. Our results highlight a promising direction for building powerful and efficient LRMs.

Het Uitdunnen van het Onverwachte: Efficiënte Coderedenering via Verrassing van de Eerste Token

Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

Samenvatting

Support