Масштабирование спекулятивного декодирования с использованием опережающего рассуждения

Аннотация

Модели рассуждений преуспевают в генерации длинных цепочек мыслей, но декодирование получающихся тысяч токенов происходит медленно. Спекулятивное декодирование на уровне токенов (SD) помогает, но его эффективность ограничена, поскольку вероятность того, что вся догадка из гамма-токенов будет верной, экспоненциально снижается с ростом гаммы. Это означает, что выделение большего объема вычислений для более длинных черновиков токенов сталкивается с алгоритмическим потолком, что делает ускорение скромным и независимым от оборудования. Мы поднимаем этот потолок с помощью метода Lookahead Reasoning, который использует второй уровень параллелизма на уровне шагов. Наше ключевое понимание заключается в том, что модели рассуждений генерируют пошагово, и каждый шаг должен быть семантически правильным, а не точным совпадением токенов. В Lookahead Reasoning легковесная модель-черновик предлагает несколько будущих шагов; целевая модель расширяет каждое предложение за один пакетный проход, а верификатор сохраняет семантически правильные шаги, позволяя целевой модели перегенерировать те, которые не прошли проверку. Спекулятивное декодирование на уровне токенов по-прежнему работает внутри каждого шага рассуждения, поэтому два уровня параллелизма умножаются. Мы показываем, что Lookahead Reasoning повышает пиковое ускорение SD как теоретически, так и эмпирически. На тестах GSM8K, AIME и других бенчмарках Lookahead Reasoning улучшает ускорение SD с 1.4x до 2.1x, сохраняя качество ответов, и его ускорение лучше масштабируется с увеличением пропускной способности GPU. Наш код доступен по адресу https://github.com/hao-ai-lab/LookaheadReasoning.

English

Reasoning models excel by generating long chain-of-thoughts, but decoding the resulting thousands of tokens is slow. Token-level speculative decoding (SD) helps, but its benefit is capped, because the chance that an entire gamma-token guess is correct falls exponentially as gamma grows. This means allocating more compute for longer token drafts faces an algorithmic ceiling -- making the speedup modest and hardware-agnostic. We raise this ceiling with Lookahead Reasoning, which exploits a second, step-level layer of parallelism. Our key insight is that reasoning models generate step-by-step, and each step needs only to be semantically correct, not exact token matching. In Lookahead Reasoning, a lightweight draft model proposes several future steps; the target model expands each proposal in one batched pass, and a verifier keeps semantically correct steps while letting the target regenerate any that fail. Token-level SD still operates within each reasoning step, so the two layers of parallelism multiply. We show Lookahead Reasoning lifts the peak speedup of SD both theoretically and empirically. Across GSM8K, AIME, and other benchmarks, Lookahead Reasoning improves the speedup of SD from 1.4x to 2.1x while preserving answer quality, and its speedup scales better with additional GPU throughput. Our code is available at https://github.com/hao-ai-lab/LookaheadReasoning

Масштабирование спекулятивного декодирования с использованием опережающего рассуждения

Scaling Speculative Decoding with Lookahead Reasoning

Аннотация

Support