SpecReason: Cómputo Rápido y Preciso en Tiempo de Inferencia mediante Razonamiento Especulativo
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning
April 10, 2025
Autores: Rui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali
cs.AI
Resumen
Los recientes avances en el cómputo durante la inferencia han mejorado significativamente el rendimiento en tareas complejas mediante la generación de largas cadenas de pensamiento (CoTs, por sus siglas en inglés) utilizando Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés). Sin embargo, esta mayor precisión conlleva un alto costo en latencia de inferencia debido a la longitud de las secuencias de razonamiento generadas y a la naturaleza autoregresiva del proceso de decodificación. Nuestra clave para abordar estos sobrecostos radica en que la inferencia de los LRMs, y el razonamiento que esta conlleva, es altamente tolerante a las aproximaciones: las tareas complejas suelen descomponerse en pasos más simples, cada uno de los cuales aporta utilidad basada en la comprensión semántica que proporciona para los pasos subsiguientes, más que en los tokens exactos que genera. En consecuencia, presentamos SpecReason, un sistema que acelera automáticamente la inferencia de los LRMs utilizando un modelo ligero para llevar a cabo (especulativamente) los pasos intermedios de razonamiento más simples y reservando el modelo base costoso únicamente para evaluar (y potencialmente corregir) las salidas especuladas. Es importante destacar que el enfoque de SpecReason en explotar la flexibilidad semántica de los tokens de pensamiento para preservar la precisión de la respuesta final es complementario a las técnicas de especulación previas, especialmente la decodificación especulativa, que exige equivalencia a nivel de token en cada paso. En una variedad de benchmarks de razonamiento, SpecReason logra una aceleración de 1.5 a 2.5 veces sobre la inferencia estándar de los LRMs, mejorando además la precisión entre un 1.0 y un 9.9%. En comparación con la decodificación especulativa sin SpecReason, su combinación produce una reducción adicional de latencia del 19.4 al 44.2%. Hemos liberado el código de SpecReason en https://github.com/ruipeterpan/specreason.
English
Recent advances in inference-time compute have significantly improved
performance on complex tasks by generating long chains of thought (CoTs) using
Large Reasoning Models (LRMs). However, this improved accuracy comes at the
cost of high inference latency due to the length of generated reasoning
sequences and the autoregressive nature of decoding. Our key insight in
tackling these overheads is that LRM inference, and the reasoning that it
embeds, is highly tolerant of approximations: complex tasks are typically
broken down into simpler steps, each of which brings utility based on the
semantic insight it provides for downstream steps rather than the exact tokens
it generates. Accordingly, we introduce SpecReason, a system that automatically
accelerates LRM inference by using a lightweight model to (speculatively) carry
out simpler intermediate reasoning steps and reserving the costly base model
only to assess (and potentially correct) the speculated outputs. Importantly,
SpecReason's focus on exploiting the semantic flexibility of thinking tokens in
preserving final-answer accuracy is complementary to prior speculation
techniques, most notably speculative decoding, which demands token-level
equivalence at each step. Across a variety of reasoning benchmarks, SpecReason
achieves 1.5-2.5times speedup over vanilla LRM inference while improving
accuracy by 1.0-9.9\%. Compared to speculative decoding without SpecReason,
their combination yields an additional 19.4-44.2\% latency reduction. We
open-source SpecReason at https://github.com/ruipeterpan/specreason.Summary
AI-Generated Summary