Escalonamento de Decodificação Especulativa com Raciocínio Antecipado
Scaling Speculative Decoding with Lookahead Reasoning
June 24, 2025
Autores: Yichao Fu, Rui Ge, Zelei Shao, Zhijie Deng, Hao Zhang
cs.AI
Resumo
Modelos de raciocínio se destacam ao gerar longas cadeias de pensamento, mas decodificar os milhares de tokens resultantes é lento. A decodificação especulativa em nível de token (SD) ajuda, mas seu benefício é limitado, pois a chance de que uma suposição de gamma-tokens inteira esteja correta diminui exponencialmente à medida que gamma cresce. Isso significa que alocar mais recursos computacionais para rascunhos de tokens mais longos enfrenta um teto algorítmico — tornando o ganho de velocidade modesto e independente de hardware. Nós elevamos esse teto com o Raciocínio Antecipado (Lookahead Reasoning), que explora uma segunda camada de paralelismo em nível de etapa. Nossa principal percepção é que modelos de raciocínio geram passo a passo, e cada etapa precisa apenas estar semanticamente correta, não exigindo correspondência exata de tokens. No Raciocínio Antecipado, um modelo leve de rascunho propõe várias etapas futuras; o modelo alvo expande cada proposta em uma única passagem em lote, e um verificador mantém as etapas semanticamente corretas enquanto permite que o modelo alvo regenere qualquer uma que falhe. A SD em nível de token ainda opera dentro de cada etapa de raciocínio, então as duas camadas de paralelismo se multiplicam. Mostramos que o Raciocínio Antecipado eleva o pico de aceleração da SD tanto teoricamente quanto empiricamente. Em benchmarks como GSM8K, AIME e outros, o Raciocínio Antecipado melhora o ganho de velocidade da SD de 1,4x para 2,1x enquanto preserva a qualidade das respostas, e sua aceleração escala melhor com o aumento de capacidade de GPU. Nosso código está disponível em https://github.com/hao-ai-lab/LookaheadReasoning.
English
Reasoning models excel by generating long chain-of-thoughts, but decoding the
resulting thousands of tokens is slow. Token-level speculative decoding (SD)
helps, but its benefit is capped, because the chance that an entire
gamma-token guess is correct falls exponentially as gamma grows. This
means allocating more compute for longer token drafts faces an algorithmic
ceiling -- making the speedup modest and hardware-agnostic. We raise this
ceiling with Lookahead Reasoning, which exploits a second, step-level layer of
parallelism. Our key insight is that reasoning models generate step-by-step,
and each step needs only to be semantically correct, not exact token matching.
In Lookahead Reasoning, a lightweight draft model proposes several future
steps; the target model expands each proposal in one batched pass, and a
verifier keeps semantically correct steps while letting the target regenerate
any that fail. Token-level SD still operates within each reasoning step, so the
two layers of parallelism multiply. We show Lookahead Reasoning lifts the peak
speedup of SD both theoretically and empirically. Across GSM8K, AIME, and other
benchmarks, Lookahead Reasoning improves the speedup of SD from 1.4x to 2.1x
while preserving answer quality, and its speedup scales better with additional
GPU throughput. Our code is available at
https://github.com/hao-ai-lab/LookaheadReasoning