SpecReason: Schnelle und präzise Inferenzzeitberechnung durch spekulatives Schließen
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning
April 10, 2025
Autoren: Rui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Inferenzzeitberechnung haben die Leistung bei komplexen Aufgaben durch die Erzeugung langer Gedankenketten (CoTs) mithilfe von Large Reasoning Models (LRMs) erheblich verbessert. Diese gesteigerte Genauigkeit geht jedoch mit einer hohen Inferenzlatenz einher, die auf die Länge der generierten Argumentationssequenzen und die autoregressive Natur der Dekodierung zurückzuführen ist. Unser zentraler Ansatz zur Bewältigung dieser Overheads besteht darin, dass die LRM-Inferenz und die darin eingebettete Argumentation hochgradig tolerant gegenüber Approximationen sind: Komplexe Aufgaben werden typischerweise in einfachere Schritte unterteilt, von denen jeder seinen Nutzen auf der Grundlage der semantischen Einsicht bietet, die er für nachfolgende Schritte liefert, und nicht aufgrund der exakten Tokens, die er generiert. Dementsprechend stellen wir SpecReason vor, ein System, das die LRM-Inferenz automatisch beschleunigt, indem es ein leichtgewichtiges Modell verwendet, um (spekulativ) einfachere Zwischenschritte der Argumentation durchzuführen, und das teure Basismodell nur zur Bewertung (und potenziellen Korrektur) der spekulierten Ausgaben reserviert. Wichtig ist, dass SpecReason den Fokus auf die Ausnutzung der semantischen Flexibilität von Denk-Tokens legt, um die Genauigkeit der Endantwort zu bewahren, was komplementär zu früheren Spekulationstechniken ist, insbesondere zum spekulativen Dekodieren, das eine Token-Äquivalenz in jedem Schritt erfordert. Über eine Vielzahl von Argumentationsbenchmarks hinweg erreicht SpecReason eine Beschleunigung um das 1,5- bis 2,5-fache gegenüber der herkömmlichen LRM-Inferenz und verbessert die Genauigkeit um 1,0-9,9\%. Im Vergleich zum spekulativen Dekodieren ohne SpecReason ergibt ihre Kombination eine zusätzliche Latenzreduktion von 19,4-44,2\%. Wir stellen SpecReason unter https://github.com/ruipeterpan/specreason als Open-Source zur Verfügung.
English
Recent advances in inference-time compute have significantly improved
performance on complex tasks by generating long chains of thought (CoTs) using
Large Reasoning Models (LRMs). However, this improved accuracy comes at the
cost of high inference latency due to the length of generated reasoning
sequences and the autoregressive nature of decoding. Our key insight in
tackling these overheads is that LRM inference, and the reasoning that it
embeds, is highly tolerant of approximations: complex tasks are typically
broken down into simpler steps, each of which brings utility based on the
semantic insight it provides for downstream steps rather than the exact tokens
it generates. Accordingly, we introduce SpecReason, a system that automatically
accelerates LRM inference by using a lightweight model to (speculatively) carry
out simpler intermediate reasoning steps and reserving the costly base model
only to assess (and potentially correct) the speculated outputs. Importantly,
SpecReason's focus on exploiting the semantic flexibility of thinking tokens in
preserving final-answer accuracy is complementary to prior speculation
techniques, most notably speculative decoding, which demands token-level
equivalence at each step. Across a variety of reasoning benchmarks, SpecReason
achieves 1.5-2.5times speedup over vanilla LRM inference while improving
accuracy by 1.0-9.9\%. Compared to speculative decoding without SpecReason,
their combination yields an additional 19.4-44.2\% latency reduction. We
open-source SpecReason at https://github.com/ruipeterpan/specreason.Summary
AI-Generated Summary