S2D2: Decodificação Rápida para LLMs de Difusão via Autoespeculação Livre de Treinamento

Resumo

Os modelos de linguagem de difusão em blocos oferecem um caminho promissor para geração mais rápida do que a autoregressão, combinando decodificação autoregressiva por blocos com desruído paralelo dentro do bloco. No entanto, no regime de poucos passos necessário para aceleração prática, a decodificação padrão com limiar de confiança é frequentemente frágil: limiares agressivos prejudicam a qualidade, enquanto limiares conservadores exigem etapas de desruído desnecessárias. As abordagens existentes que resolvem este problema ou exigem treinamento adicional ou incorrem em computação extra durante o teste. Apresentamos o S2D2, uma estrutura de decodificação autoespeculativa sem necessidade de treinamento para modelos de linguagem de difusão em blocos. Nossa observação fundamental é que um modelo de difusão em blocos torna-se autoregressivo quando o tamanho do bloco é reduzido para um, permitindo que o mesmo modelo pré-treinado atue como rascunhador e verificador. O S2D2 insere uma etapa de verificação especulativa na decodificação padrão de difusão em blocos e usa políticas de roteamento leves para decidir quando a verificação vale o seu custo. Isso produz uma trajetória de decodificação híbrida na qual a difusão propõe tokens em paralelo, enquanto o modo autoregressivo atua como um crítico sequencial a nível local. Em três famílias principais de difusão em blocos, o S2D2 melhora consistentemente o compromisso entre precisão e velocidade em relação às fortes linhas de base com limiar de confiança. No SDAR, observamos uma aceleração de até 4,7 vezes em relação à decodificação autoregressiva, e até 1,57 vezes em relação a uma linha de base dinâmica ajustada, enquanto melhora a precisão em até 4,5 pontos. No LLaDA2.1-Mini, o S2D2 permanece complementar à autocorreção integrada, incluindo uma configuração conservadora onde é 4,4 vezes mais rápido do que a linha de base estática com precisão ligeiramente maior.

English

Block-diffusion language models offer a promising path toward faster-than-autoregressive generation by combining block-wise autoregressive decoding with within-block parallel denoising. However, in the few-step regime needed for practical acceleration, standard confidence-thresholded decoding is often brittle: aggressive thresholds hurt quality, while conservative thresholds require unnecessary denoising steps. Existing approaches that address this issue either require additional training or incur extra test-time compute. We present S2D2, a training-free self-speculative decoding framework for block-diffusion language models. Our key observation is that a block-diffusion model becomes autoregressive when the block size is reduced to one, allowing the same pretrained model to act as both drafter and verifier. S2D2 inserts a speculative verification step into standard block-diffusion decoding and uses lightweight routing policies to decide when verification is worth its cost. This yields a hybrid decoding trajectory in which diffusion proposes tokens in parallel, while the autoregressive mode acts as a local sequence-level critic. Across three mainstream block-diffusion families, S2D2 consistently improves the accuracy-speed tradeoff over strong confidence-thresholding baselines. On SDAR, we observe up to 4.7times speedup over autoregressive decoding, and up to 1.57times over a tuned dynamic decoding baseline while improving accuracy by up to 4.5 points. On LLaDA2.1-Mini, S2D2 remains complementary to built-in self-correction, including a conservative setting where it is 4.4times faster than the static baseline with slightly higher accuracy.

S2D2: Decodificação Rápida para LLMs de Difusão via Autoespeculação Livre de Treinamento

S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

Resumo

Support