ChatPaper.aiChatPaper

SpecReason: Быстрые и точные вычисления во время вывода с использованием спекулятивного рассуждения

SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

April 10, 2025
Авторы: Rui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali
cs.AI

Аннотация

Недавние достижения в области вычислений во время вывода значительно улучшили производительность на сложных задачах за счет генерации длинных цепочек рассуждений (CoTs) с использованием крупных моделей рассуждений (LRMs). Однако это улучшение точности достигается за счет высокой задержки вывода, вызванной длиной генерируемых последовательностей рассуждений и авторегрессивной природой декодирования. Наше ключевое понимание для преодоления этих накладных расходов заключается в том, что вывод LRM и заложенные в нем рассуждения обладают высокой толерантностью к аппроксимациям: сложные задачи обычно разбиваются на более простые шаги, каждый из которых приносит пользу на основе семантического понимания, которое он предоставляет для последующих шагов, а не точных токенов, которые он генерирует. Соответственно, мы представляем SpecReason — систему, которая автоматически ускоряет вывод LRM, используя легковесную модель для (спекулятивного) выполнения более простых промежуточных шагов рассуждений и оставляя затратную базовую модель только для оценки (и потенциальной коррекции) спекулятивных выводов. Важно отметить, что фокус SpecReason на использовании семантической гибкости токенов мышления для сохранения точности конечного ответа дополняет предыдущие методы спекуляции, в частности спекулятивное декодирование, которое требует эквивалентности на уровне токенов на каждом шаге. На различных тестах рассуждений SpecReason достигает ускорения в 1.5-2.5 раза по сравнению с обычным выводом LRM, одновременно улучшая точность на 1.0-9.9%. По сравнению со спекулятивным декодированием без SpecReason, их комбинация дает дополнительное снижение задержки на 19.4-44.2%. Мы открываем исходный код SpecReason по адресу https://github.com/ruipeterpan/specreason.
English
Recent advances in inference-time compute have significantly improved performance on complex tasks by generating long chains of thought (CoTs) using Large Reasoning Models (LRMs). However, this improved accuracy comes at the cost of high inference latency due to the length of generated reasoning sequences and the autoregressive nature of decoding. Our key insight in tackling these overheads is that LRM inference, and the reasoning that it embeds, is highly tolerant of approximations: complex tasks are typically broken down into simpler steps, each of which brings utility based on the semantic insight it provides for downstream steps rather than the exact tokens it generates. Accordingly, we introduce SpecReason, a system that automatically accelerates LRM inference by using a lightweight model to (speculatively) carry out simpler intermediate reasoning steps and reserving the costly base model only to assess (and potentially correct) the speculated outputs. Importantly, SpecReason's focus on exploiting the semantic flexibility of thinking tokens in preserving final-answer accuracy is complementary to prior speculation techniques, most notably speculative decoding, which demands token-level equivalence at each step. Across a variety of reasoning benchmarks, SpecReason achieves 1.5-2.5times speedup over vanilla LRM inference while improving accuracy by 1.0-9.9\%. Compared to speculative decoding without SpecReason, their combination yields an additional 19.4-44.2\% latency reduction. We open-source SpecReason at https://github.com/ruipeterpan/specreason.

Summary

AI-Generated Summary

PDF52April 15, 2025