ChatPaper.aiChatPaper

Арбитраж: Эффективные рассуждения с помощью спекуляции с учетом преимуществ

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

December 4, 2025
Авторы: Monishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, Kerem Dilmen, Coleman Hooper, Haocheng Xi, Nicholas Lee, Mehrdad Farajtabar, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI

Аннотация

Современные большие языковые модели демонстрируют впечатляющие способности к рассуждениям с использованием длинных цепочек мыслей, однако это сопряжено со значительными вычислительными затратами на этапе вывода, что мотивирует разработку методов для улучшения соотношения производительности и стоимости. Среди таких методов, Спекулятивное Декодирование ускоряет вывод, используя быструю, но неточную черновую модель для авторегрессионного предложения токенов, которые затем параллельно проверяются более мощной целевой моделью. Однако из-за избыточных отклонений, вызванных несовпадением токенов на семантически эквивалентных шагах, традиционное спекулятивное декодирование на уровне токенов плохо справляется с задачами рассуждений. Хотя в последних работах произошел переход к семантической проверке на уровне шагов, которая повышает эффективность, принимая или отклоняя целые шаги рассуждения, существующие методы уровня шагов все равно перегенерируют множество отклоненных шагов с незначительным улучшением, растрачивая ценные ресурсы целевой модели. Для решения этой проблемы мы предлагаем Arbitrage — новую структуру спекулятивного генерации на уровне шагов, которая динамически направляет генерацию на основе относительного преимущества между черновой и целевой моделями. Вместо применения фиксированного порога принятия, Arbitrage использует легковесный маршрутизатор, обученный предсказывать, когда целевая модель с высокой вероятностью произведет смыслово лучший шаг. Такая маршрутизация аппроксимирует идеальный Арбитражный Оракул, который всегда выбирает шаг более высокого качества, достигая почти оптимального баланса между эффективностью и точностью. На множестве benchmarks математических рассуждений Arbitrage стабильно превосходит предыдущие базовые методы спекулятивного декодирования уровня шагов, сокращая задержку вывода до приблизительно 2 раз при сохранении точности.
English
Modern Large Language Models achieve impressive reasoning capabilities with long Chain of Thoughts, but they incur substantial computational cost during inference, and this motivates techniques to improve the performance-cost ratio. Among these techniques, Speculative Decoding accelerates inference by employing a fast but inaccurate draft model to autoregressively propose tokens, which are then verified in parallel by a more capable target model. However, due to unnecessary rejections caused by token mismatches in semantically equivalent steps, traditional token-level Speculative Decoding struggles in reasoning tasks. Although recent works have shifted to step-level semantic verification, which improve efficiency by accepting or rejecting entire reasoning steps, existing step-level methods still regenerate many rejected steps with little improvement, wasting valuable target compute. To address this challenge, we propose Arbitrage, a novel step-level speculative generation framework that routes generation dynamically based on the relative advantage between draft and target models. Instead of applying a fixed acceptance threshold, Arbitrage uses a lightweight router trained to predict when the target model is likely to produce a meaningfully better step. This routing approximates an ideal Arbitrage Oracle that always chooses the higher-quality step, achieving near-optimal efficiency-accuracy trade-offs. Across multiple mathematical reasoning benchmarks, Arbitrage consistently surpasses prior step-level Speculative Decoding baselines, reducing inference latency by up to sim2times at matched accuracy.
PDF101December 11, 2025