Potare il Non Sorprendente: Ragionamento Efficace sul Codice Tramite la Sorprendenza del Primo Token

Abstract

Recentemente, i Large Reasoning Models (LRM) hanno dimostrato capacità notevoli nel ragionamento sul codice scalando la lunghezza della Catena di Pensiero (Chain-of-Thought, CoT). Tuttavia, tracce di ragionamento eccessivamente lunghe introducono sfide significative in termini di costi di addestramento, latenza di inferenza e fattibilità di implementazione. Sebbene siano emersi vari approcci di compressione della CoT per affrontare questa sfida, essi presentano compromessi intrinseci: i metodi a livello di token spesso compromettono la coerenza sintattica e logica, mentre i metodi a livello di passaggio basati sulla perplessità non riescono a catturare in modo affidabile i passaggi di ragionamento logicamente critici. In questo articolo, proponiamo ASAP (Anchor-guided, Surprisal-based Pruning), un nuovo framework a grana grossa-fine per la compressione della CoT. ASAP esegue prima una potatura guidata da ancore per preservare la struttura di ragionamento centrale, riducendo in modo efficiente lo spazio di ricerca per le elaborazioni successive. Successivamente, abilita una potatura consapevole della logica selezionando i passaggi di ragionamento logicamente essenziali basandosi su una nuova metrica di sorpresa del primo token. Infine, ASAP insegna ai modelli di generare e sfruttare autonomamente queste CoT concise durante l'inferenza, consentendo un ragionamento efficiente nei compiti di codifica. Gli esperimenti dimostrano che ASAP raggiunge un'accuratezza all'avanguardia su più benchmark di generazione di codice, riducendo sostanzialmente i costi di addestramento e inferenza. Sul benchmark impegnativo LiveCodeBench v4_v5, il nostro approccio riduce la generazione di token del 23,5% e la latenza di inferenza del 43,5% rispetto al baseline più forte, raggiungendo un'accuratezza competitiva del 36,19% in Pass@1. I nostri risultati evidenziano una direzione promettente per la costruzione di LRM potenti ed efficienti.

English

Recently, Large Reasoning Models (LRMs) have demonstrated remarkable capabilities in code reasoning by scaling up the length of Chain-of-Thought (CoT). However, excessively long reasoning traces introduce substantial challenges in terms of training cost, inference latency, and deployment feasibility. While various CoT compression approaches have emerged to address this challenge, they face inherent trade-offs: token-level methods often disrupt syntactic and logical coherence, while step-level methods based on perplexity fail to reliably capture the logically critical reasoning steps. In this paper, we propose ASAP (Anchor-guided, Surprisal-based Pruning), a novel coarse-to-fine framework for CoT compression. ASAP first performs anchor-guided pruning to preserve the core reasoning structure, which efficiently reduces the search space for subsequent processing. It then enables a logic-aware pruning by selecting logically essential reasoning steps based on a novel first-token surprisal metric. Finally, ASAP teaches models to autonomously generate and leverage these concise CoTs at inference time, enabling efficient reasoning in coding tasks. Experiments show that ASAP achieves state-of-the-art accuracy across multiple code generation benchmarks while substantially reducing training and inference costs. On the challenging LiveCodeBench v4_v5 benchmark, our approach reduces token generation by 23.5% and inference latency by 43.5% compared to the strongest baseline, while achieving a competitive accuracy of 36.19% in Pass@1. Our results highlight a promising direction for building powerful and efficient LRMs.

Potare il Non Sorprendente: Ragionamento Efficace sul Codice Tramite la Sorprendenza del Primo Token

Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

Abstract

Support