SpecReason: Snelle en Nauwkeurige Inferentie-Tijd Berekenen via Speculatief Redeneren

Samenvatting

Recente vooruitgang in rekentijd tijdens inferentie heeft de prestaties op complexe taken aanzienlijk verbeterd door lange ketens van gedachten (CoTs) te genereren met behulp van Grote Redeneermodellen (LRMs). Deze verbeterde nauwkeurigheid gaat echter gepaard met hoge inferentielatentie vanwege de lengte van de gegenereerde redeneersequenties en het autoregressieve karakter van decodering. Onze belangrijkste inzicht bij het aanpakken van deze overheadkosten is dat LRM-inferentie, en het redeneren dat het omvat, zeer tolerant is voor benaderingen: complexe taken worden typisch opgedeeld in eenvoudigere stappen, waarvan elke stap nut heeft op basis van het semantische inzicht dat het biedt voor volgende stappen, in plaats van de exacte tokens die het genereert. Daarom introduceren we SpecReason, een systeem dat LRM-inferentie automatisch versnelt door een lichtgewicht model te gebruiken om (speculatief) eenvoudigere tussenliggende redeneerstappen uit te voeren en het kostbare basismodel alleen te reserveren om de gespeculeerde uitvoer te beoordelen (en eventueel te corrigeren). Belangrijk is dat SpecReason's focus op het benutten van de semantische flexibiliteit van denktokens bij het behouden van de nauwkeurigheid van het eindantwoord complementair is aan eerdere speculatietechnieken, met name speculatieve decodering, die token-level gelijkwaardigheid bij elke stap vereist. Over een verscheidenheid aan redeneerbenchmarks behaalt SpecReason een versnelling van 1,5-2,5 keer ten opzichte van standaard LRM-inferentie, terwijl de nauwkeurigheid met 1,0-9,9\% wordt verbeterd. In vergelijking met speculatieve decodering zonder SpecReason, levert hun combinatie een extra latentiereductie van 19,4-44,2\% op. We open-sourcen SpecReason op https://github.com/ruipeterpan/specreason.

English

Recent advances in inference-time compute have significantly improved performance on complex tasks by generating long chains of thought (CoTs) using Large Reasoning Models (LRMs). However, this improved accuracy comes at the cost of high inference latency due to the length of generated reasoning sequences and the autoregressive nature of decoding. Our key insight in tackling these overheads is that LRM inference, and the reasoning that it embeds, is highly tolerant of approximations: complex tasks are typically broken down into simpler steps, each of which brings utility based on the semantic insight it provides for downstream steps rather than the exact tokens it generates. Accordingly, we introduce SpecReason, a system that automatically accelerates LRM inference by using a lightweight model to (speculatively) carry out simpler intermediate reasoning steps and reserving the costly base model only to assess (and potentially correct) the speculated outputs. Importantly, SpecReason's focus on exploiting the semantic flexibility of thinking tokens in preserving final-answer accuracy is complementary to prior speculation techniques, most notably speculative decoding, which demands token-level equivalence at each step. Across a variety of reasoning benchmarks, SpecReason achieves 1.5-2.5times speedup over vanilla LRM inference while improving accuracy by 1.0-9.9\%. Compared to speculative decoding without SpecReason, their combination yields an additional 19.4-44.2\% latency reduction. We open-source SpecReason at https://github.com/ruipeterpan/specreason.

SpecReason: Snelle en Nauwkeurige Inferentie-Tijd Berekenen via Speculatief Redeneren

SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

Samenvatting

Support