SpecReason: Computação Rápida e Precisa em Tempo de Inferência via Raciocínio Especulativo
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning
April 10, 2025
Autores: Rui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali
cs.AI
Resumo
Avanços recentes em computação durante a inferência melhoraram significativamente o desempenho em tarefas complexas ao gerar longas cadeias de pensamento (CoTs, do inglês *Chains of Thought*) usando Modelos de Raciocínio de Grande Escala (LRMs, do inglês *Large Reasoning Models*). No entanto, essa maior precisão vem ao custo de uma alta latência de inferência devido ao comprimento das sequências de raciocínio geradas e à natureza autoregressiva da decodificação. Nossa principal percepção para enfrentar esses custos é que a inferência de LRMs, e o raciocínio que ela incorpora, é altamente tolerante a aproximações: tarefas complexas são tipicamente divididas em etapas mais simples, cada uma das quais traz utilidade com base na percepção semântica que fornece para etapas subsequentes, em vez dos tokens exatos que gera. Assim, introduzimos o SpecReason, um sistema que acelera automaticamente a inferência de LRMs usando um modelo leve para realizar (especulativamente) etapas intermediárias de raciocínio mais simples e reservando o modelo base custoso apenas para avaliar (e potencialmente corrigir) as saídas especuladas. É importante destacar que o foco do SpecReason em explorar a flexibilidade semântica dos tokens de pensamento para preservar a precisão da resposta final é complementar às técnicas de especulação anteriores, mais notavelmente a decodificação especulativa, que exige equivalência em nível de token a cada etapa. Em uma variedade de benchmarks de raciocínio, o SpecReason alcança uma aceleração de 1,5 a 2,5 vezes em relação à inferência padrão de LRMs, enquanto melhora a precisão em 1,0 a 9,9%. Em comparação com a decodificação especulativa sem o SpecReason, sua combinação resulta em uma redução adicional de latência de 19,4 a 44,2%. Disponibilizamos o SpecReason como código aberto em https://github.com/ruipeterpan/specreason.
English
Recent advances in inference-time compute have significantly improved
performance on complex tasks by generating long chains of thought (CoTs) using
Large Reasoning Models (LRMs). However, this improved accuracy comes at the
cost of high inference latency due to the length of generated reasoning
sequences and the autoregressive nature of decoding. Our key insight in
tackling these overheads is that LRM inference, and the reasoning that it
embeds, is highly tolerant of approximations: complex tasks are typically
broken down into simpler steps, each of which brings utility based on the
semantic insight it provides for downstream steps rather than the exact tokens
it generates. Accordingly, we introduce SpecReason, a system that automatically
accelerates LRM inference by using a lightweight model to (speculatively) carry
out simpler intermediate reasoning steps and reserving the costly base model
only to assess (and potentially correct) the speculated outputs. Importantly,
SpecReason's focus on exploiting the semantic flexibility of thinking tokens in
preserving final-answer accuracy is complementary to prior speculation
techniques, most notably speculative decoding, which demands token-level
equivalence at each step. Across a variety of reasoning benchmarks, SpecReason
achieves 1.5-2.5times speedup over vanilla LRM inference while improving
accuracy by 1.0-9.9\%. Compared to speculative decoding without SpecReason,
their combination yields an additional 19.4-44.2\% latency reduction. We
open-source SpecReason at https://github.com/ruipeterpan/specreason.Summary
AI-Generated Summary