Modelos de Linguagem de Difusão com Decodificação Rápida por meio de Agendas de Confiança Conscientes do Progresso

Resumo

Os modelos de linguagem de grande porte baseados em difusão (dLLMs) representam uma alternativa promissora aos modelos autorregressivos, mas sua utilidade prática é severamente limitada pela amostragem iterativa e lenta. Apresentamos o SchED, um algoritmo de saída antecipada agnóstico ao modelo e que não requer treinamento, que agrega margens de logit de extensão total e interrompe a decodificação assim que um limite de confiança suave e dependente do progresso é atingido. Avaliamos o SchED em duas famílias de dLLMs (Dream e LLaDA), em variantes base e ajustadas por instrução, em dez benchmarks abrangendo tarefas downstream, incluindo respostas a perguntas de múltipla escolha (MCQ), matemática, QA/resumo de formato longo e tradução. O SchED oferece grandes acelerações estáveis: em modelos ajustados por instrução, alcança acelerações de 3,8 a 4,0 vezes, mantendo 99,8% a 100% da pontuação de linha de base em média. Em modelos base, o SchED produz ganhos consistentes de aceleração com retenção de desempenho de 99,1% a 100%, chegando a até 2,34 vezes em configurações mais agressivas. Usando uma métrica de velocidade conservadora que penaliza fortemente a perda de qualidade (QPS, γ=4), demonstramos que o SchED é robusto e supera claramente métodos anteriores de saída antecipada baseados em confiança, que falham na geração de formato longo. Uma análise de entropia das previsões de token do modelo revela que o ajuste por instrução acelera o decaimento da entropia preditiva. Ao transformar a estabilização genuína da confiança em economia computacional, o SchED torna a decodificação de dLLMs substancialmente mais eficiente.

English

Diffusion large language models (dLLMs) offer a promising alternative to autoregressive models, but their practical utility is severely hampered by slow, iterative sampling. We present SchED, a training-free, model-agnostic early-exit algorithm that aggregates full-span logit margins and halts decoding once a smooth, progress-dependent confidence threshold is met. We evaluated SchED on two dLLM families (Dream and LLaDA), in base and instruction-tuned variants across ten benchmarks spanning downstream tasks including multiple-choice question answering (MCQ), math, long-form QA/summarization, and translation. SchED delivers large, stable accelerations: on instruction-tuned models, it achieves 3.8-4.0times speedups while retaining 99.8-100% of the baseline score on average. On base models, SchED yields consistent speedup gains with 99.1-100% performance retention, with up to 2.34times under more aggressive settings. Using a conservative speed metric that heavily penalizes quality loss (QPS, γ{=}4), we show that SchED is robust and clearly outperforms prior confidence-based early-exit methods, which break down on long-form generation. An entropy analysis of the model's token predictions reveals that instruction tuning speeds up the decay of predictive entropy. By turning genuine confidence stabilization into computational savings, SchED makes dLLM decoding substantially more efficient.

Modelos de Linguagem de Difusão com Decodificação Rápida por meio de Agendas de Confiança Conscientes do Progresso

Fast-Decoding Diffusion Language Models via Progress-Aware Confidence Schedules

Resumo

Support