ChatPaper.aiChatPaper

SpecReason: Calcolo Rapido e Preciso al Momento dell'Inferenza tramite Ragionamento Speculativo

SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

April 10, 2025
Autori: Rui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali
cs.AI

Abstract

I recenti progressi nel calcolo durante l'inferenza hanno migliorato significativamente le prestazioni su compiti complessi generando lunghe catene di pensiero (CoT) utilizzando Modelli di Ragionamento su Grande Scala (LRM). Tuttavia, questa maggiore accuratezza comporta un costo elevato in termini di latenza di inferenza a causa della lunghezza delle sequenze di ragionamento generate e della natura autoregressiva del decoding. La nostra intuizione chiave per affrontare questi sovraccarichi è che l'inferenza degli LRM, e il ragionamento che essa incorpora, è altamente tollerante alle approssimazioni: i compiti complessi sono tipicamente suddivisi in passaggi più semplici, ciascuno dei quali apporta utilità in base all'intuizione semantica che fornisce per i passaggi successivi piuttosto che ai token esatti che genera. Di conseguenza, introduciamo SpecReason, un sistema che accelera automaticamente l'inferenza degli LRM utilizzando un modello leggero per eseguire (in modo speculativo) i passaggi intermedi di ragionamento più semplici e riservando il modello base costoso solo per valutare (e potenzialmente correggere) gli output speculati. È importante sottolineare che l'attenzione di SpecReason sullo sfruttamento della flessibilità semantica dei token di pensiero nel preservare l'accuratezza della risposta finale è complementare alle tecniche di speculazione precedenti, in particolare il decoding speculativo, che richiede l'equivalenza a livello di token in ogni passaggio. Su una varietà di benchmark di ragionamento, SpecReason ottiene un aumento di velocità di 1,5-2,5 volte rispetto all'inferenza LRM standard, migliorando l'accuratezza dell'1,0-9,9%. Rispetto al decoding speculativo senza SpecReason, la loro combinazione produce un'ulteriore riduzione della latenza del 19,4-44,2%. SpecReason è open-source all'indirizzo https://github.com/ruipeterpan/specreason.
English
Recent advances in inference-time compute have significantly improved performance on complex tasks by generating long chains of thought (CoTs) using Large Reasoning Models (LRMs). However, this improved accuracy comes at the cost of high inference latency due to the length of generated reasoning sequences and the autoregressive nature of decoding. Our key insight in tackling these overheads is that LRM inference, and the reasoning that it embeds, is highly tolerant of approximations: complex tasks are typically broken down into simpler steps, each of which brings utility based on the semantic insight it provides for downstream steps rather than the exact tokens it generates. Accordingly, we introduce SpecReason, a system that automatically accelerates LRM inference by using a lightweight model to (speculatively) carry out simpler intermediate reasoning steps and reserving the costly base model only to assess (and potentially correct) the speculated outputs. Importantly, SpecReason's focus on exploiting the semantic flexibility of thinking tokens in preserving final-answer accuracy is complementary to prior speculation techniques, most notably speculative decoding, which demands token-level equivalence at each step. Across a variety of reasoning benchmarks, SpecReason achieves 1.5-2.5times speedup over vanilla LRM inference while improving accuracy by 1.0-9.9\%. Compared to speculative decoding without SpecReason, their combination yields an additional 19.4-44.2\% latency reduction. We open-source SpecReason at https://github.com/ruipeterpan/specreason.

Summary

AI-Generated Summary

PDF52April 15, 2025