SpecReason: Schnelle und präzise Inferenzzeitberechnung durch spekulatives Schließen

papers.abstract

Jüngste Fortschritte in der Inferenzzeitberechnung haben die Leistung bei komplexen Aufgaben durch die Erzeugung langer Gedankenketten (CoTs) mithilfe von Large Reasoning Models (LRMs) erheblich verbessert. Diese gesteigerte Genauigkeit geht jedoch mit einer hohen Inferenzlatenz einher, die auf die Länge der generierten Argumentationssequenzen und die autoregressive Natur der Dekodierung zurückzuführen ist. Unser zentraler Ansatz zur Bewältigung dieser Overheads besteht darin, dass die LRM-Inferenz und die darin eingebettete Argumentation hochgradig tolerant gegenüber Approximationen sind: Komplexe Aufgaben werden typischerweise in einfachere Schritte unterteilt, von denen jeder seinen Nutzen auf der Grundlage der semantischen Einsicht bietet, die er für nachfolgende Schritte liefert, und nicht aufgrund der exakten Tokens, die er generiert. Dementsprechend stellen wir SpecReason vor, ein System, das die LRM-Inferenz automatisch beschleunigt, indem es ein leichtgewichtiges Modell verwendet, um (spekulativ) einfachere Zwischenschritte der Argumentation durchzuführen, und das teure Basismodell nur zur Bewertung (und potenziellen Korrektur) der spekulierten Ausgaben reserviert. Wichtig ist, dass SpecReason den Fokus auf die Ausnutzung der semantischen Flexibilität von Denk-Tokens legt, um die Genauigkeit der Endantwort zu bewahren, was komplementär zu früheren Spekulationstechniken ist, insbesondere zum spekulativen Dekodieren, das eine Token-Äquivalenz in jedem Schritt erfordert. Über eine Vielzahl von Argumentationsbenchmarks hinweg erreicht SpecReason eine Beschleunigung um das 1,5- bis 2,5-fache gegenüber der herkömmlichen LRM-Inferenz und verbessert die Genauigkeit um 1,0-9,9\%. Im Vergleich zum spekulativen Dekodieren ohne SpecReason ergibt ihre Kombination eine zusätzliche Latenzreduktion von 19,4-44,2\%. Wir stellen SpecReason unter https://github.com/ruipeterpan/specreason als Open-Source zur Verfügung.

English

Recent advances in inference-time compute have significantly improved performance on complex tasks by generating long chains of thought (CoTs) using Large Reasoning Models (LRMs). However, this improved accuracy comes at the cost of high inference latency due to the length of generated reasoning sequences and the autoregressive nature of decoding. Our key insight in tackling these overheads is that LRM inference, and the reasoning that it embeds, is highly tolerant of approximations: complex tasks are typically broken down into simpler steps, each of which brings utility based on the semantic insight it provides for downstream steps rather than the exact tokens it generates. Accordingly, we introduce SpecReason, a system that automatically accelerates LRM inference by using a lightweight model to (speculatively) carry out simpler intermediate reasoning steps and reserving the costly base model only to assess (and potentially correct) the speculated outputs. Importantly, SpecReason's focus on exploiting the semantic flexibility of thinking tokens in preserving final-answer accuracy is complementary to prior speculation techniques, most notably speculative decoding, which demands token-level equivalence at each step. Across a variety of reasoning benchmarks, SpecReason achieves 1.5-2.5times speedup over vanilla LRM inference while improving accuracy by 1.0-9.9\%. Compared to speculative decoding without SpecReason, their combination yields an additional 19.4-44.2\% latency reduction. We open-source SpecReason at https://github.com/ruipeterpan/specreason.

SpecReason: Schnelle und präzise Inferenzzeitberechnung durch spekulatives Schließen

SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

papers.abstract

Support