Arbitrage: Effizientes Schließen durch vorteilsbewusste Spekulation

papers.abstract

Moderne Large Language Models erreichen beeindruckende Fähigkeiten im logischen Schlussfolgern mit langen Chain-of-Thoughts, verursachen jedoch erhebliche Rechenkosten während der Inferenz, was Techniken zur Verbesserung der Leistungs-Kosten-Relation motiviert. Unter diesen Techniken beschleunigt Speculative Decoding die Inferenz, indem ein schnelles, aber ungenaues Draft-Modell eingesetzt wird, um Token autoregressiv vorzuschlagen, die dann parallel von einem leistungsfähigeren Target-Modell verifiziert werden. Aufgrund unnötiger Zurückweisungen, die durch Token-Fehlanpassungen in semantisch äquivalenten Schritten verursacht werden, ist das traditionelle token-basierte Speculative Decoding bei Reasoning-Aufgaben jedoch problematisch. Obwohl neuere Arbeiten zu einer schrittbasierten semantischen Verifikation übergegangen sind, die die Effizienz durch Akzeptieren oder Zurückweisen ganzer Denkschritte verbessert, generieren bestehende schrittbasierte Methoden viele abgelehnte Schritte mit geringer Verbesserung neu und verschwenden wertvolle Target-Modell-Rechenleistung. Um diese Herausforderung zu bewältigen, schlagen wir Arbitrage vor, ein neuartiges, schrittbasiertes spekulatives Generierungsframework, das die Generierung dynamisch auf Basis des relativen Vorteils zwischen Draft- und Target-Modell steuert. Anstatt einen festen Akzeptanzschwellenwert anzuwenden, verwendet Arbitrage einen leichtgewichtigen Router, der darauf trainiert ist, vorherzusagen, wann das Target-Modell voraussichtlich einen bedeutend besseren Schritt erzeugen wird. Dieses Routing approximiert ein ideales Arbitrage-Orakel, das stets den Schritt mit der höheren Qualität wählt und nahezu optimale Effizienz-Genauigkeits-Kompromisse erreicht. Über mehrere mathematische Reasoning-Benchmarks hinweg übertrifft Arbitrage konsequent frühere schrittbasierte Speculative-Decoding-Baselines und reduziert die Inferenzlatenz bei gleicher Genauigkeit um bis zu sim2fach.

English

Modern Large Language Models achieve impressive reasoning capabilities with long Chain of Thoughts, but they incur substantial computational cost during inference, and this motivates techniques to improve the performance-cost ratio. Among these techniques, Speculative Decoding accelerates inference by employing a fast but inaccurate draft model to autoregressively propose tokens, which are then verified in parallel by a more capable target model. However, due to unnecessary rejections caused by token mismatches in semantically equivalent steps, traditional token-level Speculative Decoding struggles in reasoning tasks. Although recent works have shifted to step-level semantic verification, which improve efficiency by accepting or rejecting entire reasoning steps, existing step-level methods still regenerate many rejected steps with little improvement, wasting valuable target compute. To address this challenge, we propose Arbitrage, a novel step-level speculative generation framework that routes generation dynamically based on the relative advantage between draft and target models. Instead of applying a fixed acceptance threshold, Arbitrage uses a lightweight router trained to predict when the target model is likely to produce a meaningfully better step. This routing approximates an ideal Arbitrage Oracle that always chooses the higher-quality step, achieving near-optimal efficiency-accuracy trade-offs. Across multiple mathematical reasoning benchmarks, Arbitrage consistently surpasses prior step-level Speculative Decoding baselines, reducing inference latency by up to sim2times at matched accuracy.

Arbitrage: Effizientes Schließen durch vorteilsbewusste Spekulation

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

papers.abstract

Support