Arbitraje: Razonamiento Eficiente mediante Especulación Consciente de la Ventaja
Arbitrage: Efficient Reasoning via Advantage-Aware Speculation
December 4, 2025
Autores: Monishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, Kerem Dilmen, Coleman Hooper, Haocheng Xi, Nicholas Lee, Mehrdad Farajtabar, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI
Resumen
Los Modelos de Lenguaje Grandes modernos logran capacidades de razonamiento impresionantes con largas Cadenas de Pensamiento, pero incurren en un coste computacional sustancial durante la inferencia, lo que motiva el desarrollo de técnicas para mejorar la relación rendimiento-coste. Entre estas técnicas, la Decodificación Especulativa acelera la inferencia empleando un modelo borrador rápido pero inexacto para proponer tokens de forma autoregresiva, los cuales luego son verificados en paralelo por un modelo objetivo más capaz. Sin embargo, debido a rechazos innecesarios causados por desajustes de tokens en pasos semánticamente equivalentes, la Decodificación Especulativa tradicional a nivel de token tiene dificultades en tareas de razonamiento. Aunque trabajos recientes han pasado a una verificación semántica a nivel de paso, que mejora la eficiencia aceptando o rechazando pasos de razonamiento completos, los métodos existentes a nivel de paso aún regeneran muchos pasos rechazados con poca mejora, desperdiciando valiosos recursos de cómputo del modelo objetivo. Para abordar este desafío, proponemos Arbitrage, un novedoso marco de generación especulativa a nivel de paso que dirige la generación dinámicamente basándose en la ventaja relativa entre los modelos borrador y objetivo. En lugar de aplicar un umbral de aceptación fijo, Arbitrage utiliza un enrutador ligero entrenado para predecir cuándo es probable que el modelo objetivo produzca un paso significativamente mejor. Este enrutamiento aproxima un Oráculo de Arbitraje ideal que siempre elige el paso de mayor calidad, logrando compensaciones de eficiencia-precisión casi óptimas. En múltiples benchmarks de razonamiento matemático, Arbitrage supera consistentemente los baselines previos de Decodificación Especulativa a nivel de paso, reduciendo la latencia de inferencia hasta aproximadamente 2 veces con la misma precisión.
English
Modern Large Language Models achieve impressive reasoning capabilities with long Chain of Thoughts, but they incur substantial computational cost during inference, and this motivates techniques to improve the performance-cost ratio. Among these techniques, Speculative Decoding accelerates inference by employing a fast but inaccurate draft model to autoregressively propose tokens, which are then verified in parallel by a more capable target model. However, due to unnecessary rejections caused by token mismatches in semantically equivalent steps, traditional token-level Speculative Decoding struggles in reasoning tasks. Although recent works have shifted to step-level semantic verification, which improve efficiency by accepting or rejecting entire reasoning steps, existing step-level methods still regenerate many rejected steps with little improvement, wasting valuable target compute. To address this challenge, we propose Arbitrage, a novel step-level speculative generation framework that routes generation dynamically based on the relative advantage between draft and target models. Instead of applying a fixed acceptance threshold, Arbitrage uses a lightweight router trained to predict when the target model is likely to produce a meaningfully better step. This routing approximates an ideal Arbitrage Oracle that always chooses the higher-quality step, achieving near-optimal efficiency-accuracy trade-offs. Across multiple mathematical reasoning benchmarks, Arbitrage consistently surpasses prior step-level Speculative Decoding baselines, reducing inference latency by up to sim2times at matched accuracy.