Escalonamento de Decodificação Especulativa com Raciocínio Antecipado

Resumo

Modelos de raciocínio se destacam ao gerar longas cadeias de pensamento, mas decodificar os milhares de tokens resultantes é lento. A decodificação especulativa em nível de token (SD) ajuda, mas seu benefício é limitado, pois a chance de que uma suposição de gamma-tokens inteira esteja correta diminui exponencialmente à medida que gamma cresce. Isso significa que alocar mais recursos computacionais para rascunhos de tokens mais longos enfrenta um teto algorítmico — tornando o ganho de velocidade modesto e independente de hardware. Nós elevamos esse teto com o Raciocínio Antecipado (Lookahead Reasoning), que explora uma segunda camada de paralelismo em nível de etapa. Nossa principal percepção é que modelos de raciocínio geram passo a passo, e cada etapa precisa apenas estar semanticamente correta, não exigindo correspondência exata de tokens. No Raciocínio Antecipado, um modelo leve de rascunho propõe várias etapas futuras; o modelo alvo expande cada proposta em uma única passagem em lote, e um verificador mantém as etapas semanticamente corretas enquanto permite que o modelo alvo regenere qualquer uma que falhe. A SD em nível de token ainda opera dentro de cada etapa de raciocínio, então as duas camadas de paralelismo se multiplicam. Mostramos que o Raciocínio Antecipado eleva o pico de aceleração da SD tanto teoricamente quanto empiricamente. Em benchmarks como GSM8K, AIME e outros, o Raciocínio Antecipado melhora o ganho de velocidade da SD de 1,4x para 2,1x enquanto preserva a qualidade das respostas, e sua aceleração escala melhor com o aumento de capacidade de GPU. Nosso código está disponível em https://github.com/hao-ai-lab/LookaheadReasoning.

English

Reasoning models excel by generating long chain-of-thoughts, but decoding the resulting thousands of tokens is slow. Token-level speculative decoding (SD) helps, but its benefit is capped, because the chance that an entire gamma-token guess is correct falls exponentially as gamma grows. This means allocating more compute for longer token drafts faces an algorithmic ceiling -- making the speedup modest and hardware-agnostic. We raise this ceiling with Lookahead Reasoning, which exploits a second, step-level layer of parallelism. Our key insight is that reasoning models generate step-by-step, and each step needs only to be semantically correct, not exact token matching. In Lookahead Reasoning, a lightweight draft model proposes several future steps; the target model expands each proposal in one batched pass, and a verifier keeps semantically correct steps while letting the target regenerate any that fail. Token-level SD still operates within each reasoning step, so the two layers of parallelism multiply. We show Lookahead Reasoning lifts the peak speedup of SD both theoretically and empirically. Across GSM8K, AIME, and other benchmarks, Lookahead Reasoning improves the speedup of SD from 1.4x to 2.1x while preserving answer quality, and its speedup scales better with additional GPU throughput. Our code is available at https://github.com/hao-ai-lab/LookaheadReasoning

Escalonamento de Decodificação Especulativa com Raciocínio Antecipado

Scaling Speculative Decoding with Lookahead Reasoning

Resumo

Support