Escalado de Decodificación Especulativa con Razonamiento Anticipado
Scaling Speculative Decoding with Lookahead Reasoning
June 24, 2025
Autores: Yichao Fu, Rui Ge, Zelei Shao, Zhijie Deng, Hao Zhang
cs.AI
Resumen
Los modelos de razonamiento destacan por generar largas cadenas de pensamiento, pero decodificar los miles de tokens resultantes es lento. La decodificación especulativa a nivel de token (SD, por sus siglas en inglés) ayuda, pero su beneficio está limitado, ya que la probabilidad de que una conjetura completa de gamma-tokens sea correcta disminuye exponencialmente a medida que gamma crece. Esto significa que asignar más capacidad de cómputo para borradores de tokens más largos enfrenta un límite algorítmico, lo que hace que la aceleración sea modesta e independiente del hardware. Elevamos este límite con el Razonamiento de Anticipación, que aprovecha una segunda capa de paralelismo a nivel de paso. Nuestra idea clave es que los modelos de razonamiento generan paso a paso, y cada paso solo necesita ser semánticamente correcto, no una coincidencia exacta de tokens. En el Razonamiento de Anticipación, un modelo de borrador ligero propone varios pasos futuros; el modelo objetivo expande cada propuesta en un solo paso por lotes, y un verificador mantiene los pasos semánticamente correctos mientras permite que el objetivo regenere los que fallen. La SD a nivel de token sigue operando dentro de cada paso de razonamiento, por lo que las dos capas de paralelismo se multiplican. Demostramos que el Razonamiento de Anticipación eleva la aceleración máxima de la SD tanto teórica como empíricamente. En los benchmarks de GSM8K, AIME y otros, el Razonamiento de Anticipación mejora la aceleración de la SD de 1.4x a 2.1x mientras preserva la calidad de las respuestas, y su aceleración escala mejor con un mayor rendimiento de GPU. Nuestro código está disponible en https://github.com/hao-ai-lab/LookaheadReasoning.
English
Reasoning models excel by generating long chain-of-thoughts, but decoding the
resulting thousands of tokens is slow. Token-level speculative decoding (SD)
helps, but its benefit is capped, because the chance that an entire
gamma-token guess is correct falls exponentially as gamma grows. This
means allocating more compute for longer token drafts faces an algorithmic
ceiling -- making the speedup modest and hardware-agnostic. We raise this
ceiling with Lookahead Reasoning, which exploits a second, step-level layer of
parallelism. Our key insight is that reasoning models generate step-by-step,
and each step needs only to be semantically correct, not exact token matching.
In Lookahead Reasoning, a lightweight draft model proposes several future
steps; the target model expands each proposal in one batched pass, and a
verifier keeps semantically correct steps while letting the target regenerate
any that fail. Token-level SD still operates within each reasoning step, so the
two layers of parallelism multiply. We show Lookahead Reasoning lifts the peak
speedup of SD both theoretically and empirically. Across GSM8K, AIME, and other
benchmarks, Lookahead Reasoning improves the speedup of SD from 1.4x to 2.1x
while preserving answer quality, and its speedup scales better with additional
GPU throughput. Our code is available at
https://github.com/hao-ai-lab/LookaheadReasoning