Opschalen van Speculatieve Decodering met Vooruitkijkend Redeneren
Scaling Speculative Decoding with Lookahead Reasoning
June 24, 2025
Auteurs: Yichao Fu, Rui Ge, Zelei Shao, Zhijie Deng, Hao Zhang
cs.AI
Samenvatting
Redeneermodellen blinken uit door lange ketens van gedachten te genereren, maar het decoderen van de resulterende duizenden tokens is traag. Token-level speculatief decoderen (SD) helpt, maar het voordeel is beperkt, omdat de kans dat een volledige gamma-token gok correct is, exponentieel afneemt naarmate gamma groeit. Dit betekent dat het toewijzen van meer rekenkracht voor langere tokenconcepten een algoritmisch plafond tegenkomt – waardoor de snelheidswinst bescheiden en hardware-onafhankelijk blijft. Wij verhogen dit plafond met Lookahead Reasoning, dat een tweede, stapniveau laag van parallellisme benut. Onze belangrijkste inzicht is dat redeneermodellen stap-voor-stap genereren, en elke stap alleen semantisch correct hoeft te zijn, niet exact token-matching. In Lookahead Reasoning stelt een lichtgewicht conceptmodel meerdere toekomstige stappen voor; het doelmodel breidt elk voorstel uit in één gebatchte doorloop, en een verifier behoudt semantisch correcte stappen terwijl het doelmodel eventuele mislukte stappen opnieuw genereert. Token-level SD werkt nog steeds binnen elke redeneerstap, waardoor de twee lagen van parallellisme zich vermenigvuldigen. We tonen aan dat Lookahead Reasoning de pieksnelheidswinst van SD zowel theoretisch als empirisch verhoogt. Over GSM8K, AIME en andere benchmarks verbetert Lookahead Reasoning de snelheidswinst van SD van 1,4x naar 2,1x terwijl de antwoordkwaliteit behouden blijft, en de snelheidswinst schaalt beter met extra GPU-doorvoer. Onze code is beschikbaar op https://github.com/hao-ai-lab/LookaheadReasoning.
English
Reasoning models excel by generating long chain-of-thoughts, but decoding the
resulting thousands of tokens is slow. Token-level speculative decoding (SD)
helps, but its benefit is capped, because the chance that an entire
gamma-token guess is correct falls exponentially as gamma grows. This
means allocating more compute for longer token drafts faces an algorithmic
ceiling -- making the speedup modest and hardware-agnostic. We raise this
ceiling with Lookahead Reasoning, which exploits a second, step-level layer of
parallelism. Our key insight is that reasoning models generate step-by-step,
and each step needs only to be semantically correct, not exact token matching.
In Lookahead Reasoning, a lightweight draft model proposes several future
steps; the target model expands each proposal in one batched pass, and a
verifier keeps semantically correct steps while letting the target regenerate
any that fail. Token-level SD still operates within each reasoning step, so the
two layers of parallelism multiply. We show Lookahead Reasoning lifts the peak
speedup of SD both theoretically and empirically. Across GSM8K, AIME, and other
benchmarks, Lookahead Reasoning improves the speedup of SD from 1.4x to 2.1x
while preserving answer quality, and its speedup scales better with additional
GPU throughput. Our code is available at
https://github.com/hao-ai-lab/LookaheadReasoning