ChatPaper.aiChatPaper

Arbitraggio: Ragionamento Efficiente tramite Speculazione Consapevole del Vantaggio

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

December 4, 2025
Autori: Monishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, Kerem Dilmen, Coleman Hooper, Haocheng Xi, Nicholas Lee, Mehrdad Farajtabar, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI

Abstract

I moderni Large Language Model raggiungono capacità di ragionamento impressionanti con lunghe Catene di Pensiero, ma comportano un costo computazionale sostanziale durante l'inferenza, il che motiva lo sviluppo di tecniche per migliorare il rapporto prestazioni-costo. Tra queste tecniche, lo Speculative Decoding accelera l'inferenza impiegando un modello draft veloce ma impreciso per proporre token in modo autoregressivo, che vengono poi verificati in parallelo da un modello target più capace. Tuttavia, a causa di rifiuti non necessari causati da discrepanze tra token in passaggi semanticamente equivalenti, lo Speculative Decoding tradizionale a livello di token risulta inefficace nei compiti di ragionamento. Sebbene lavori recenti si siano orientati verso una verifica semantica a livello di passo, che migliora l'efficienza accettando o rifiutando interi passaggi di ragionamento, i metodi esistenti a livello di passo rigenerano comunque molti passaggi rifiutati con scarso miglioramento, sprecando preziosa capacità di calcolo del modello target. Per affrontare questa sfida, proponiamo Arbitrage, un nuovo framework di generazione speculativa a livello di passo che instrada dinamicamente la generazione in base al vantaggio relativo tra i modelli draft e target. Invece di applicare una soglia di accettazione fissa, Arbitrage utilizza un router leggero addestrato per prevedere quando è probabile che il modello target produca un passo significativamente migliore. Questo instradamento approssima un Oracle Arbitrage ideale che sceglie sempre il passo di qualità superiore, raggiungendo compromessi efficienza- accuratezza quasi ottimali. Su molteplici benchmark di ragionamento matematico, Arbitrage supera costantemente i precedenti baseline di Speculative Decoding a livello di passo, riducendo la latenza di inferenza fino a ~2 volte a parità di accuratezza.
English
Modern Large Language Models achieve impressive reasoning capabilities with long Chain of Thoughts, but they incur substantial computational cost during inference, and this motivates techniques to improve the performance-cost ratio. Among these techniques, Speculative Decoding accelerates inference by employing a fast but inaccurate draft model to autoregressively propose tokens, which are then verified in parallel by a more capable target model. However, due to unnecessary rejections caused by token mismatches in semantically equivalent steps, traditional token-level Speculative Decoding struggles in reasoning tasks. Although recent works have shifted to step-level semantic verification, which improve efficiency by accepting or rejecting entire reasoning steps, existing step-level methods still regenerate many rejected steps with little improvement, wasting valuable target compute. To address this challenge, we propose Arbitrage, a novel step-level speculative generation framework that routes generation dynamically based on the relative advantage between draft and target models. Instead of applying a fixed acceptance threshold, Arbitrage uses a lightweight router trained to predict when the target model is likely to produce a meaningfully better step. This routing approximates an ideal Arbitrage Oracle that always chooses the higher-quality step, achieving near-optimal efficiency-accuracy trade-offs. Across multiple mathematical reasoning benchmarks, Arbitrage consistently surpasses prior step-level Speculative Decoding baselines, reducing inference latency by up to sim2times at matched accuracy.
PDF101December 11, 2025