Escalado de Decodificación Especulativa con Razonamiento Anticipado

Resumen

Los modelos de razonamiento destacan por generar largas cadenas de pensamiento, pero decodificar los miles de tokens resultantes es lento. La decodificación especulativa a nivel de token (SD, por sus siglas en inglés) ayuda, pero su beneficio está limitado, ya que la probabilidad de que una conjetura completa de gamma-tokens sea correcta disminuye exponencialmente a medida que gamma crece. Esto significa que asignar más capacidad de cómputo para borradores de tokens más largos enfrenta un límite algorítmico, lo que hace que la aceleración sea modesta e independiente del hardware. Elevamos este límite con el Razonamiento de Anticipación, que aprovecha una segunda capa de paralelismo a nivel de paso. Nuestra idea clave es que los modelos de razonamiento generan paso a paso, y cada paso solo necesita ser semánticamente correcto, no una coincidencia exacta de tokens. En el Razonamiento de Anticipación, un modelo de borrador ligero propone varios pasos futuros; el modelo objetivo expande cada propuesta en un solo paso por lotes, y un verificador mantiene los pasos semánticamente correctos mientras permite que el objetivo regenere los que fallen. La SD a nivel de token sigue operando dentro de cada paso de razonamiento, por lo que las dos capas de paralelismo se multiplican. Demostramos que el Razonamiento de Anticipación eleva la aceleración máxima de la SD tanto teórica como empíricamente. En los benchmarks de GSM8K, AIME y otros, el Razonamiento de Anticipación mejora la aceleración de la SD de 1.4x a 2.1x mientras preserva la calidad de las respuestas, y su aceleración escala mejor con un mayor rendimiento de GPU. Nuestro código está disponible en https://github.com/hao-ai-lab/LookaheadReasoning.

English

Reasoning models excel by generating long chain-of-thoughts, but decoding the resulting thousands of tokens is slow. Token-level speculative decoding (SD) helps, but its benefit is capped, because the chance that an entire gamma-token guess is correct falls exponentially as gamma grows. This means allocating more compute for longer token drafts faces an algorithmic ceiling -- making the speedup modest and hardware-agnostic. We raise this ceiling with Lookahead Reasoning, which exploits a second, step-level layer of parallelism. Our key insight is that reasoning models generate step-by-step, and each step needs only to be semantically correct, not exact token matching. In Lookahead Reasoning, a lightweight draft model proposes several future steps; the target model expands each proposal in one batched pass, and a verifier keeps semantically correct steps while letting the target regenerate any that fail. Token-level SD still operates within each reasoning step, so the two layers of parallelism multiply. We show Lookahead Reasoning lifts the peak speedup of SD both theoretically and empirically. Across GSM8K, AIME, and other benchmarks, Lookahead Reasoning improves the speedup of SD from 1.4x to 2.1x while preserving answer quality, and its speedup scales better with additional GPU throughput. Our code is available at https://github.com/hao-ai-lab/LookaheadReasoning

Escalado de Decodificación Especulativa con Razonamiento Anticipado

Scaling Speculative Decoding with Lookahead Reasoning

Resumen

Support