Decodificação Causal Paralela Rápida e Precisa usando Forçamento de Jacobi

Resumo

A geração multi-token emergiu como um paradigma promissor para acelerar a inferência de grandes modelos baseados em transformers. Esforços recentes exploram principalmente Modelos de Linguagem Grandes por difusão (dLLMs) para descodificação paralela, a fim de reduzir a latência de inferência. Para alcançar qualidade de geração equivalente a Modelos Autoregressivos (AR), muitas técnicas adaptam modelos AR em dLLMs para permitir a descodificação paralela. No entanto, estes sofrem de uma aceleração limitada em comparação com modelos AR devido a um desalinhamento entre pré-treinamento e pós-treinamento. Especificamente, a distribuição de dados mascarados no pós-treinamento desvia-se significativamente da distribuição de dados do mundo real observada durante o pré-treinamento, e os dLLMs dependem de atenção bidirecional, o que conflita com o conhecimento causal aprendido durante o pré-treinamento e dificulta a integração da reutilização exata da cache KV. Para resolver isto, introduzimos o Jacobi Forcing, um paradigma de destilação progressiva onde os modelos são treinados nas suas próprias trajetórias de descodificação paralela geradas, transformando suavemente modelos AR em descodificadores paralelos eficientes, preservando a sua propriedade de inferência causal pré-treinada. Os modelos treinados sob este paradigma, o Modelo de Jacobi Forcing, alcançam uma aceleração de tempo real de 3.8x em benchmarks de codificação e matemática com perda mínima de desempenho. Com base nas características da trajetória dos Modelos de Jacobi Forcing, introduzimos a descodificação multi-bloco com rejeição e reciclagem, que permite até 4.5x mais tokens aceites por iteração e uma aceleração de tempo real de quase 4.0x, trocando eficazmente computação adicional por menor latência de inferência. O nosso código está disponível em https://github.com/hao-ai-lab/JacobiForcing.

English

Multi-token generation has emerged as a promising paradigm for accelerating transformer-based large model inference. Recent efforts primarily explore diffusion Large Language Models (dLLMs) for parallel decoding to reduce inference latency. To achieve AR-level generation quality, many techniques adapt AR models into dLLMs to enable parallel decoding. However, they suffer from limited speedup compared to AR models due to a pretrain-to-posttrain mismatch. Specifically, the masked data distribution in post-training deviates significantly from the real-world data distribution seen during pretraining, and dLLMs rely on bidirectional attention, which conflicts with the causal prior learned during pretraining and hinders the integration of exact KV cache reuse. To address this, we introduce Jacobi Forcing, a progressive distillation paradigm where models are trained on their own generated parallel decoding trajectories, smoothly shifting AR models into efficient parallel decoders while preserving their pretrained causal inference property. The models trained under this paradigm, Jacobi Forcing Model, achieves 3.8x wall-clock speedup on coding and math benchmarks with minimal loss in performance. Based on Jacobi Forcing Models' trajectory characteristics, we introduce multi-block decoding with rejection recycling, which enables up to 4.5x higher token acceptance count per iteration and nearly 4.0x wall-clock speedup, effectively trading additional compute for lower inference latency. Our code is available at https://github.com/hao-ai-lab/JacobiForcing.

Decodificação Causal Paralela Rápida e Precisa usando Forçamento de Jacobi

Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

Resumo

Support