Decodifica Parallela Causale Veloce e Precisa Utilizzando il Forzamento di Jacobi

Abstract

La generazione multi-token è emersa come un paradigma promettente per accelerare l'inferenza di grandi modelli basati su transformer. Gli sforzi recenti esplorano principalmente modelli linguistici di grandi dimensioni di tipo diffusivo (dLLM) per il decoding parallelo, al fine di ridurre la latenza di inferenza. Per raggiungere una qualità di generazione paragonabile ai modelli autoregressivi (AR), molte tecniche adattano modelli AR in dLLM per abilitare il decoding parallelo. Tuttavia, queste tecniche soffrono di un limitato guadagno in velocità rispetto ai modelli AR a causa di una discrepanza tra pre-addestramento e post-addestramento. Nello specifico, la distribuzione dei dati mascherati nel post-addestramento si discosta significativamente dalla distribuzione dei dati del mondo reale osservata durante il pre-addestramento, e i dLLM si basano su un'attenzione bidirezionale, che confligge con il principio causale appreso durante il pre-addestramento e ostacola l'integrazione del riutilizzo esatto della cache KV. Per affrontare questo problema, introduciamo Jacobi Forcing, un paradigma di distillazione progressiva in cui i modelli vengono addestrati sulle proprie traiettorie di decoding parallelo generate, trasformando gradualmente i modelli AR in decoder paralleli efficienti preservando al contempo la loro proprietà di inferenza causale pre-addestrata. I modelli addestrati sotto questo paradigma, denominati Jacobi Forcing Model, raggiungono un'accelerazione in tempo reale di 3.8x su benchmark di codifica e matematica con una perdita minima di prestazioni. Sulla base delle caratteristiche della traiettoria dei Jacobi Forcing Models, introduciamo il multi-block decoding con rejection recycling, che consente fino a 4.5x token accettati in più per iterazione e un'accelerazione in tempo reale di quasi 4.0x, scambiando efficacemente potenza di calcolo aggiuntiva per una minore latenza di inferenza. Il nostro codice è disponibile all'indirizzo https://github.com/hao-ai-lab/JacobiForcing.

English

Multi-token generation has emerged as a promising paradigm for accelerating transformer-based large model inference. Recent efforts primarily explore diffusion Large Language Models (dLLMs) for parallel decoding to reduce inference latency. To achieve AR-level generation quality, many techniques adapt AR models into dLLMs to enable parallel decoding. However, they suffer from limited speedup compared to AR models due to a pretrain-to-posttrain mismatch. Specifically, the masked data distribution in post-training deviates significantly from the real-world data distribution seen during pretraining, and dLLMs rely on bidirectional attention, which conflicts with the causal prior learned during pretraining and hinders the integration of exact KV cache reuse. To address this, we introduce Jacobi Forcing, a progressive distillation paradigm where models are trained on their own generated parallel decoding trajectories, smoothly shifting AR models into efficient parallel decoders while preserving their pretrained causal inference property. The models trained under this paradigm, Jacobi Forcing Model, achieves 3.8x wall-clock speedup on coding and math benchmarks with minimal loss in performance. Based on Jacobi Forcing Models' trajectory characteristics, we introduce multi-block decoding with rejection recycling, which enables up to 4.5x higher token acceptance count per iteration and nearly 4.0x wall-clock speedup, effectively trading additional compute for lower inference latency. Our code is available at https://github.com/hao-ai-lab/JacobiForcing.

Decodifica Parallela Causale Veloce e Precisa Utilizzando il Forzamento di Jacobi

Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

Abstract

Support