SpecReason : Calcul rapide et précis à l'inférence via un raisonnement spéculatif
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning
April 10, 2025
Auteurs: Rui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali
cs.AI
Résumé
Les récents progrès en matière de calcul au moment de l'inférence ont considérablement amélioré les performances sur des tâches complexes en générant de longues chaînes de raisonnement (CoTs) à l'aide de modèles de raisonnement à grande échelle (LRMs). Cependant, cette amélioration de la précision se fait au prix d'une latence d'inférence élevée en raison de la longueur des séquences de raisonnement générées et de la nature autorégressive du décodage. Notre idée clé pour surmonter ces surcharges est que l'inférence des LRM, ainsi que le raisonnement qu'elle intègre, est très tolérante aux approximations : les tâches complexes sont généralement décomposées en étapes plus simples, chacune apportant une utilité basée sur l'aperçu sémantique qu'elle fournit pour les étapes suivantes plutôt que sur les tokens exacts qu'elle génère. En conséquence, nous introduisons SpecReason, un système qui accélère automatiquement l'inférence des LRM en utilisant un modèle léger pour effectuer (de manière spéculative) les étapes de raisonnement intermédiaires plus simples et en réservant le modèle de base coûteux uniquement pour évaluer (et potentiellement corriger) les sorties spéculées. Il est important de noter que l'accent de SpecReason sur l'exploitation de la flexibilité sémantique des tokens de pensée pour préserver la précision de la réponse finale est complémentaire aux techniques de spéculation antérieures, notamment le décodage spéculatif, qui exige une équivalence au niveau des tokens à chaque étape. Sur une variété de benchmarks de raisonnement, SpecReason atteint une accélération de 1,5 à 2,5 fois par rapport à l'inférence LRM standard tout en améliorant la précision de 1,0 à 9,9 %. Par rapport au décodage spéculatif sans SpecReason, leur combinaison permet une réduction supplémentaire de la latence de 19,4 à 44,2 %. Nous mettons SpecReason en open-source à l'adresse https://github.com/ruipeterpan/specreason.
English
Recent advances in inference-time compute have significantly improved
performance on complex tasks by generating long chains of thought (CoTs) using
Large Reasoning Models (LRMs). However, this improved accuracy comes at the
cost of high inference latency due to the length of generated reasoning
sequences and the autoregressive nature of decoding. Our key insight in
tackling these overheads is that LRM inference, and the reasoning that it
embeds, is highly tolerant of approximations: complex tasks are typically
broken down into simpler steps, each of which brings utility based on the
semantic insight it provides for downstream steps rather than the exact tokens
it generates. Accordingly, we introduce SpecReason, a system that automatically
accelerates LRM inference by using a lightweight model to (speculatively) carry
out simpler intermediate reasoning steps and reserving the costly base model
only to assess (and potentially correct) the speculated outputs. Importantly,
SpecReason's focus on exploiting the semantic flexibility of thinking tokens in
preserving final-answer accuracy is complementary to prior speculation
techniques, most notably speculative decoding, which demands token-level
equivalence at each step. Across a variety of reasoning benchmarks, SpecReason
achieves 1.5-2.5times speedup over vanilla LRM inference while improving
accuracy by 1.0-9.9\%. Compared to speculative decoding without SpecReason,
their combination yields an additional 19.4-44.2\% latency reduction. We
open-source SpecReason at https://github.com/ruipeterpan/specreason.Summary
AI-Generated Summary