Arbitrage : Raisonnement efficace par spéculation consciente de l'avantage
Arbitrage: Efficient Reasoning via Advantage-Aware Speculation
December 4, 2025
papers.authors: Monishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, Kerem Dilmen, Coleman Hooper, Haocheng Xi, Nicholas Lee, Mehrdad Farajtabar, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI
papers.abstract
Les grands modèles de langage modernes atteignent des capacités de raisonnement impressionnantes grâce à de longues chaînes de pensée, mais ils entraînent des coûts computationnels substantiels lors de l'inférence, ce qui motive le développement de techniques pour améliorer le rapport performance-coût. Parmi ces techniques, le décodage spéculatif accélère l'inférence en utilisant un modèle de brouillon rapide mais peu précis pour proposer des jetons de manière autogressive, qui sont ensuite vérifiés en parallèle par un modèle cible plus performant. Cependant, en raison des rejets inutiles causés par des divergences de jetons dans des étapes sémantiquement équivalentes, le décodage spéculatif traditionnel au niveau des jetons peine dans les tâches de raisonnement. Bien que des travaux récents soient passés à une vérification sémantique au niveau des étapes, améliorant l'efficacité en acceptant ou rejetant des étapes de raisonnement entières, les méthodes existantes régénèrent encore de nombreuses étapes rejetées avec peu d'amélioration, gaspillant ainsi des ressources de calcul précieuses du modèle cible. Pour relever ce défi, nous proposons Arbitrage, un nouveau cadre de génération spéculative au niveau des étapes qui achemine la génération dynamiquement en fonction de l'avantage relatif entre les modèles de brouillon et cible. Au lieu d'appliquer un seuil d'acceptation fixe, Arbitrage utilise un routeur léger entraîné à prédire quand le modèle cible est susceptible de produire une étape significativement meilleure. Ce routage approxime un Oracle d'Arbitrage idéal qui choisit toujours l'étape de plus haute qualité, atteignant des compromis efficacité-précision quasi optimaux. Sur plusieurs benchmarks de raisonnement mathématique, Arbitrage surpasse constamment les méthodes de décodage spéculatif antérieures au niveau des étapes, réduisant la latence d'inférence jusqu'à sim2 fois pour une précision équivalente.
English
Modern Large Language Models achieve impressive reasoning capabilities with long Chain of Thoughts, but they incur substantial computational cost during inference, and this motivates techniques to improve the performance-cost ratio. Among these techniques, Speculative Decoding accelerates inference by employing a fast but inaccurate draft model to autoregressively propose tokens, which are then verified in parallel by a more capable target model. However, due to unnecessary rejections caused by token mismatches in semantically equivalent steps, traditional token-level Speculative Decoding struggles in reasoning tasks. Although recent works have shifted to step-level semantic verification, which improve efficiency by accepting or rejecting entire reasoning steps, existing step-level methods still regenerate many rejected steps with little improvement, wasting valuable target compute. To address this challenge, we propose Arbitrage, a novel step-level speculative generation framework that routes generation dynamically based on the relative advantage between draft and target models. Instead of applying a fixed acceptance threshold, Arbitrage uses a lightweight router trained to predict when the target model is likely to produce a meaningfully better step. This routing approximates an ideal Arbitrage Oracle that always chooses the higher-quality step, achieving near-optimal efficiency-accuracy trade-offs. Across multiple mathematical reasoning benchmarks, Arbitrage consistently surpasses prior step-level Speculative Decoding baselines, reducing inference latency by up to sim2times at matched accuracy.