S2D2: Быстрое декодирование для диффузионных LLM с помощью беспрограммного самоспецулирования

Аннотация

Блочно-диффузионные языковые модели предлагают перспективный путь к сверхавторегрессионной генерации, сочетая блочное авторегрессионное декодирование с параллельным шумоподавлением внутри блоков. Однако в режиме малого числа шагов, необходимом для практического ускорения, стандартное декодирование с порогом уверенности часто оказывается ненадежным: агрессивные пороги ухудшают качество, а консервативные требуют избыточных шагов шумоподавления. Существующие подходы к решению этой проблемы либо требуют дополнительного обучения, либо приводят к увеличению вычислительных затрат на этапе тестирования. Мы представляем S2D2 — не требующую дообучения фреймворк самоспекулятивного декодирования для блочно-диффузионных языковых моделей. Ключевое наблюдение заключается в том, что блочно-диффузионная модель становится авторегрессионной при уменьшении размера блока до единицы, что позволяет одной и той же предобученной модели выступать как в роли драфтера, так и верификатора. S2D2 вводит шаг спекулятивной верификации в стандартное блочно-диффузионное декодирование и использует легковесные политики маршрутизации для определения целесообразности верификации. Это создает гибридную траекторию декодирования, в которой диффузия параллельно предлагает токены, а авторегрессионный режим выступает в роли локального критика на уровне последовательности. Для трех основных семейств блочно-диффузионных моделей S2D2 стабильно улучшает компромисс между точностью и скоростью по сравнению с сильными базовыми методами пороговой уверенности. На SDAR мы наблюдаем ускорение до 4.7 раз относительно авторегрессионного декодирования и до 1.57 раз относительно настроенного динамического базового метода при повышении точности до 4.5 пунктов. На LLaDA2.1-Mini S2D2 остается комплементарным встроенной самокоррекции, включая консервативный режим, где он в 4.4 раза быстрее статического базового метода при незначительно более высокой точности.

English

Block-diffusion language models offer a promising path toward faster-than-autoregressive generation by combining block-wise autoregressive decoding with within-block parallel denoising. However, in the few-step regime needed for practical acceleration, standard confidence-thresholded decoding is often brittle: aggressive thresholds hurt quality, while conservative thresholds require unnecessary denoising steps. Existing approaches that address this issue either require additional training or incur extra test-time compute. We present S2D2, a training-free self-speculative decoding framework for block-diffusion language models. Our key observation is that a block-diffusion model becomes autoregressive when the block size is reduced to one, allowing the same pretrained model to act as both drafter and verifier. S2D2 inserts a speculative verification step into standard block-diffusion decoding and uses lightweight routing policies to decide when verification is worth its cost. This yields a hybrid decoding trajectory in which diffusion proposes tokens in parallel, while the autoregressive mode acts as a local sequence-level critic. Across three mainstream block-diffusion families, S2D2 consistently improves the accuracy-speed tradeoff over strong confidence-thresholding baselines. On SDAR, we observe up to 4.7times speedup over autoregressive decoding, and up to 1.57times over a tuned dynamic decoding baseline while improving accuracy by up to 4.5 points. On LLaDA2.1-Mini, S2D2 remains complementary to built-in self-correction, including a conservative setting where it is 4.4times faster than the static baseline with slightly higher accuracy.

S2D2: Быстрое декодирование для диффузионных LLM с помощью беспрограммного самоспецулирования

S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

Аннотация

Support