Potare il Non Sorprendente: Ragionamento Efficace sul Codice Tramite la Sorprendenza del Primo Token
Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal
August 8, 2025
Autori: Wenhao Zeng, Yaoning Wang, Chao Hu, Yuling Shi, Chengcheng Wan, Hongyu Zhang, Xiaodong Gu
cs.AI
Abstract
Recentemente, i Large Reasoning Models (LRM) hanno dimostrato capacità notevoli nel ragionamento sul codice scalando la lunghezza della Catena di Pensiero (Chain-of-Thought, CoT). Tuttavia, tracce di ragionamento eccessivamente lunghe introducono sfide significative in termini di costi di addestramento, latenza di inferenza e fattibilità di implementazione. Sebbene siano emersi vari approcci di compressione della CoT per affrontare questa sfida, essi presentano compromessi intrinseci: i metodi a livello di token spesso compromettono la coerenza sintattica e logica, mentre i metodi a livello di passaggio basati sulla perplessità non riescono a catturare in modo affidabile i passaggi di ragionamento logicamente critici. In questo articolo, proponiamo ASAP (Anchor-guided, Surprisal-based Pruning), un nuovo framework a grana grossa-fine per la compressione della CoT. ASAP esegue prima una potatura guidata da ancore per preservare la struttura di ragionamento centrale, riducendo in modo efficiente lo spazio di ricerca per le elaborazioni successive. Successivamente, abilita una potatura consapevole della logica selezionando i passaggi di ragionamento logicamente essenziali basandosi su una nuova metrica di sorpresa del primo token. Infine, ASAP insegna ai modelli di generare e sfruttare autonomamente queste CoT concise durante l'inferenza, consentendo un ragionamento efficiente nei compiti di codifica. Gli esperimenti dimostrano che ASAP raggiunge un'accuratezza all'avanguardia su più benchmark di generazione di codice, riducendo sostanzialmente i costi di addestramento e inferenza. Sul benchmark impegnativo LiveCodeBench v4_v5, il nostro approccio riduce la generazione di token del 23,5% e la latenza di inferenza del 43,5% rispetto al baseline più forte, raggiungendo un'accuratezza competitiva del 36,19% in Pass@1. I nostri risultati evidenziano una direzione promettente per la costruzione di LRM potenti ed efficienti.
English
Recently, Large Reasoning Models (LRMs) have demonstrated remarkable
capabilities in code reasoning by scaling up the length of Chain-of-Thought
(CoT). However, excessively long reasoning traces introduce substantial
challenges in terms of training cost, inference latency, and deployment
feasibility. While various CoT compression approaches have emerged to address
this challenge, they face inherent trade-offs: token-level methods often
disrupt syntactic and logical coherence, while step-level methods based on
perplexity fail to reliably capture the logically critical reasoning steps. In
this paper, we propose ASAP (Anchor-guided, Surprisal-based Pruning), a novel
coarse-to-fine framework for CoT compression. ASAP first performs anchor-guided
pruning to preserve the core reasoning structure, which efficiently reduces the
search space for subsequent processing. It then enables a logic-aware pruning
by selecting logically essential reasoning steps based on a novel first-token
surprisal metric. Finally, ASAP teaches models to autonomously generate and
leverage these concise CoTs at inference time, enabling efficient reasoning in
coding tasks. Experiments show that ASAP achieves state-of-the-art accuracy
across multiple code generation benchmarks while substantially reducing
training and inference costs. On the challenging LiveCodeBench v4_v5 benchmark,
our approach reduces token generation by 23.5% and inference latency by 43.5%
compared to the strongest baseline, while achieving a competitive accuracy of
36.19% in Pass@1. Our results highlight a promising direction for building
powerful and efficient LRMs.