Arbitrage: Efficiënt Redeneren via Voordeelbewuste Speculatie
Arbitrage: Efficient Reasoning via Advantage-Aware Speculation
December 4, 2025
Auteurs: Monishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, Kerem Dilmen, Coleman Hooper, Haocheng Xi, Nicholas Lee, Mehrdad Farajtabar, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI
Samenvatting
Moderne grootschalige taalmodelen bereiken indrukwekkende redeneercapaciteiten met lange ketens van gedachten (Chain of Thoughts), maar dit gaat gepaard met aanzienlijke rekenkosten tijdens de inferentie, wat de motivatie vormt voor technieken om de prestatie-kostenverhouding te verbeteren. Tot deze technieken behoort Speculatieve Decodering, welke de inferentie versnelt door gebruik te maken van een snel maar onnauwkeurig conceptmodel om tokens autogressief voor te stellen, die vervolgens parallel worden geverifieerd door een krachtiger doelmodel. Echter, vanwege onnodige afwijzingen veroorzaakt door token-mismatches in semantisch equivalente stappen, worstelt traditionele token-level Speculatieve Decodering met redeneertaken. Hoewel recente werken zijn overgestapt naar stap-level semantische verificatie, die de efficiëntie verbetert door hele redeneerstappen te accepteren of te verwerpen, regenereren bestaande stap-level methoden nog steeds veel afgewezen stappen met weinig verbetering, wat waardevolle rekenkracht van het doelmodel verspilt. Om deze uitdaging aan te pakken, stellen wij Arbitrage voor, een nieuw raamwerk voor stap-level speculatieve generatie dat de generatie dynamisch routeert op basis van het relatieve voordeel tussen concept- en doelmodellen. In plaats van een vaste acceptatiedrempel toe te passen, gebruikt Arbitrage een lichtgewicht router die is getraind om te voorspellen wanneer het doelmodel waarschijnlijk een betekenisvol betere stap zal produceren. Deze routing benadert een ideale Arbitrage Oracle die altijd de stap van hogere kwaliteit kiest, waardoor bijna optimale efficiëntie-nauwkeurigheid-afwegingen worden bereikt. Over meerdere wiskundige redeneerbenchmarks heen overtreft Arbitrage consistent eerdere stap-level Speculatieve Decodering-basislijnen, en vermindert het de inferentielatentie met tot ongeveer 2 keer bij gelijke nauwkeurigheid.
English
Modern Large Language Models achieve impressive reasoning capabilities with long Chain of Thoughts, but they incur substantial computational cost during inference, and this motivates techniques to improve the performance-cost ratio. Among these techniques, Speculative Decoding accelerates inference by employing a fast but inaccurate draft model to autoregressively propose tokens, which are then verified in parallel by a more capable target model. However, due to unnecessary rejections caused by token mismatches in semantically equivalent steps, traditional token-level Speculative Decoding struggles in reasoning tasks. Although recent works have shifted to step-level semantic verification, which improve efficiency by accepting or rejecting entire reasoning steps, existing step-level methods still regenerate many rejected steps with little improvement, wasting valuable target compute. To address this challenge, we propose Arbitrage, a novel step-level speculative generation framework that routes generation dynamically based on the relative advantage between draft and target models. Instead of applying a fixed acceptance threshold, Arbitrage uses a lightweight router trained to predict when the target model is likely to produce a meaningfully better step. This routing approximates an ideal Arbitrage Oracle that always chooses the higher-quality step, achieving near-optimal efficiency-accuracy trade-offs. Across multiple mathematical reasoning benchmarks, Arbitrage consistently surpasses prior step-level Speculative Decoding baselines, reducing inference latency by up to sim2times at matched accuracy.