SpecReason: Snelle en Nauwkeurige Inferentie-Tijd Berekenen via Speculatief Redeneren
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning
April 10, 2025
Auteurs: Rui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali
cs.AI
Samenvatting
Recente vooruitgang in rekentijd tijdens inferentie heeft de prestaties op complexe taken aanzienlijk verbeterd door lange ketens van gedachten (CoTs) te genereren met behulp van Grote Redeneermodellen (LRMs). Deze verbeterde nauwkeurigheid gaat echter gepaard met hoge inferentielatentie vanwege de lengte van de gegenereerde redeneersequenties en het autoregressieve karakter van decodering. Onze belangrijkste inzicht bij het aanpakken van deze overheadkosten is dat LRM-inferentie, en het redeneren dat het omvat, zeer tolerant is voor benaderingen: complexe taken worden typisch opgedeeld in eenvoudigere stappen, waarvan elke stap nut heeft op basis van het semantische inzicht dat het biedt voor volgende stappen, in plaats van de exacte tokens die het genereert. Daarom introduceren we SpecReason, een systeem dat LRM-inferentie automatisch versnelt door een lichtgewicht model te gebruiken om (speculatief) eenvoudigere tussenliggende redeneerstappen uit te voeren en het kostbare basismodel alleen te reserveren om de gespeculeerde uitvoer te beoordelen (en eventueel te corrigeren). Belangrijk is dat SpecReason's focus op het benutten van de semantische flexibiliteit van denktokens bij het behouden van de nauwkeurigheid van het eindantwoord complementair is aan eerdere speculatietechnieken, met name speculatieve decodering, die token-level gelijkwaardigheid bij elke stap vereist. Over een verscheidenheid aan redeneerbenchmarks behaalt SpecReason een versnelling van 1,5-2,5 keer ten opzichte van standaard LRM-inferentie, terwijl de nauwkeurigheid met 1,0-9,9\% wordt verbeterd. In vergelijking met speculatieve decodering zonder SpecReason, levert hun combinatie een extra latentiereductie van 19,4-44,2\% op. We open-sourcen SpecReason op https://github.com/ruipeterpan/specreason.
English
Recent advances in inference-time compute have significantly improved
performance on complex tasks by generating long chains of thought (CoTs) using
Large Reasoning Models (LRMs). However, this improved accuracy comes at the
cost of high inference latency due to the length of generated reasoning
sequences and the autoregressive nature of decoding. Our key insight in
tackling these overheads is that LRM inference, and the reasoning that it
embeds, is highly tolerant of approximations: complex tasks are typically
broken down into simpler steps, each of which brings utility based on the
semantic insight it provides for downstream steps rather than the exact tokens
it generates. Accordingly, we introduce SpecReason, a system that automatically
accelerates LRM inference by using a lightweight model to (speculatively) carry
out simpler intermediate reasoning steps and reserving the costly base model
only to assess (and potentially correct) the speculated outputs. Importantly,
SpecReason's focus on exploiting the semantic flexibility of thinking tokens in
preserving final-answer accuracy is complementary to prior speculation
techniques, most notably speculative decoding, which demands token-level
equivalence at each step. Across a variety of reasoning benchmarks, SpecReason
achieves 1.5-2.5times speedup over vanilla LRM inference while improving
accuracy by 1.0-9.9\%. Compared to speculative decoding without SpecReason,
their combination yields an additional 19.4-44.2\% latency reduction. We
open-source SpecReason at https://github.com/ruipeterpan/specreason.Summary
AI-Generated Summary