ChatPaper.aiChatPaper

Élaguer l'inattendu : Raisonnement efficace sur le code via la surprisal du premier jeton

Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

August 8, 2025
papers.authors: Wenhao Zeng, Yaoning Wang, Chao Hu, Yuling Shi, Chengcheng Wan, Hongyu Zhang, Xiaodong Gu
cs.AI

papers.abstract

Récemment, les modèles de raisonnement à grande échelle (LRMs) ont démontré des capacités remarquables en matière de raisonnement sur le code grâce à l'augmentation de la longueur des chaînes de pensée (Chain-of-Thought, CoT). Cependant, des traces de raisonnement excessivement longues introduisent des défis substantiels en termes de coût d'entraînement, de latence d'inférence et de faisabilité de déploiement. Bien que diverses approches de compression des CoT aient émergé pour relever ce défi, elles se heurtent à des compromis inhérents : les méthodes au niveau des tokens perturbent souvent la cohérence syntaxique et logique, tandis que les méthodes au niveau des étapes basées sur la perplexité échouent à capturer de manière fiable les étapes de raisonnement logiquement critiques. Dans cet article, nous proposons ASAP (Anchor-guided, Surprisal-based Pruning), un nouveau cadre de compression des CoT allant du grossier au fin. ASAP effectue d'abord un élagage guidé par des ancres pour préserver la structure centrale du raisonnement, réduisant ainsi efficacement l'espace de recherche pour le traitement ultérieur. Il permet ensuite un élagage conscient de la logique en sélectionnant les étapes de raisonnement logiquement essentielles sur la base d'une nouvelle métrique de surprise du premier token. Enfin, ASAP enseigne aux modèles à générer et à exploiter de manière autonome ces CoT concis au moment de l'inférence, permettant un raisonnement efficace dans les tâches de codage. Les expériences montrent qu'ASAP atteint une précision de pointe sur plusieurs benchmarks de génération de code tout en réduisant considérablement les coûts d'entraînement et d'inférence. Sur le benchmark difficile LiveCodeBench v4_v5, notre approche réduit la génération de tokens de 23,5 % et la latence d'inférence de 43,5 % par rapport à la base de référence la plus forte, tout en atteignant une précision compétitive de 36,19 % en Pass@1. Nos résultats mettent en lumière une direction prometteuse pour la construction de LRMs puissants et efficaces.
English
Recently, Large Reasoning Models (LRMs) have demonstrated remarkable capabilities in code reasoning by scaling up the length of Chain-of-Thought (CoT). However, excessively long reasoning traces introduce substantial challenges in terms of training cost, inference latency, and deployment feasibility. While various CoT compression approaches have emerged to address this challenge, they face inherent trade-offs: token-level methods often disrupt syntactic and logical coherence, while step-level methods based on perplexity fail to reliably capture the logically critical reasoning steps. In this paper, we propose ASAP (Anchor-guided, Surprisal-based Pruning), a novel coarse-to-fine framework for CoT compression. ASAP first performs anchor-guided pruning to preserve the core reasoning structure, which efficiently reduces the search space for subsequent processing. It then enables a logic-aware pruning by selecting logically essential reasoning steps based on a novel first-token surprisal metric. Finally, ASAP teaches models to autonomously generate and leverage these concise CoTs at inference time, enabling efficient reasoning in coding tasks. Experiments show that ASAP achieves state-of-the-art accuracy across multiple code generation benchmarks while substantially reducing training and inference costs. On the challenging LiveCodeBench v4_v5 benchmark, our approach reduces token generation by 23.5% and inference latency by 43.5% compared to the strongest baseline, while achieving a competitive accuracy of 36.19% in Pass@1. Our results highlight a promising direction for building powerful and efficient LRMs.
PDF183August 11, 2025