차익거래: 이점 인식 추측을 통한 효율적 추론
Arbitrage: Efficient Reasoning via Advantage-Aware Speculation
December 4, 2025
저자: Monishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, Kerem Dilmen, Coleman Hooper, Haocheng Xi, Nicholas Lee, Mehrdad Farajtabar, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI
초록
현대 대규모 언어 모델은 긴 사고 사슬을 통해 인상적인 추론 능력을 달성하지만, 추론 과정에서 상당한 계산 비용이 발생하며, 이는 성능 대비 비용 효율을 개선하기 위한 기술 개발의 동기가 됩니다. 이러한 기술 중 하나인 예측 디코딩은 빠르지만 부정확한 초안 모델을 활용하여 토큰을 자동회귀적으로 제안한 후, 더 우수한 대상 모델이 이를 병렬로 검증하는 방식으로 추론 속도를 높입니다. 그러나 의미적으로 동등한 단계에서 발생하는 토큰 불일치로 인한 불필요한 기각으로 인해 기존 토큰 수준 예측 디코딩은 추론 과제에서 어려움을 겪습니다. 최근 연구에서는 전체 추론 단위의 승인 또는 기각을 통해 효율성을 향상시키는 단계 수준 의미 검증으로 전환되었으나, 기존 단계 수준 방법론은 여전히 많은 기각된 단계를 재생성하여 개선 효과가 미미하고 소중한 대상 모델 계산 자원을 낭비합니다. 이러한 문제를 해결하기 위해 우리는 초안 모델과 대상 모델 간 상대적 우위에 기반하여 동적으로 생성을 라우팅하는 새로운 단계 수준 예측 생성 프레임워크인 Arbitrage를 제안합니다. 고정된 승인 기준을 적용하는 대신, Arbitrage는 대상 모델이 의미 있게 더 나은 단계를 생성할 가능성을 예측하도록 훈련된 경량 라우터를 사용합니다. 이 라우팅은 항상 더 높은 품질의 단계를 선택하는 이상적인 Arbitrage Oracle을 근사화하여 거의 최적에 가까운 효율성-정확성 균형을 달성합니다. 다양한 수학적 추론 벤치마크에서 Arbitrage는 기존 단계 수준 예측 디코딩 기준선을 지속적으로 능가하며, 동일 정확도 기준으로 추론 지연 시간을 최대 약 2배까지 감소시켰습니다.
English
Modern Large Language Models achieve impressive reasoning capabilities with long Chain of Thoughts, but they incur substantial computational cost during inference, and this motivates techniques to improve the performance-cost ratio. Among these techniques, Speculative Decoding accelerates inference by employing a fast but inaccurate draft model to autoregressively propose tokens, which are then verified in parallel by a more capable target model. However, due to unnecessary rejections caused by token mismatches in semantically equivalent steps, traditional token-level Speculative Decoding struggles in reasoning tasks. Although recent works have shifted to step-level semantic verification, which improve efficiency by accepting or rejecting entire reasoning steps, existing step-level methods still regenerate many rejected steps with little improvement, wasting valuable target compute. To address this challenge, we propose Arbitrage, a novel step-level speculative generation framework that routes generation dynamically based on the relative advantage between draft and target models. Instead of applying a fixed acceptance threshold, Arbitrage uses a lightweight router trained to predict when the target model is likely to produce a meaningfully better step. This routing approximates an ideal Arbitrage Oracle that always chooses the higher-quality step, achieving near-optimal efficiency-accuracy trade-offs. Across multiple mathematical reasoning benchmarks, Arbitrage consistently surpasses prior step-level Speculative Decoding baselines, reducing inference latency by up to sim2times at matched accuracy.