Snelle en Nauwkeurige Causale Parallelle Decodering met Jacobi-forceren

Samenvatting

Multi-token-generatie is naar voren gekomen als een veelbelovend paradigma voor het versnellen van inferentie op grote transformer-modellen. Recente inspanningen onderzoeken vooral diffusion Large Language Models (dLLM's) voor parallel decoderen om de inferentielatentie te verminderen. Om een generatiekwaliteit op AR-niveau te bereiken, passen veel technieken AR-modellen aan tot dLLM's om parallel decoderen mogelijk te maken. Deze lijden echter aan een beperkte versnelling in vergelijking met AR-modellen vanwege een mismatch tussen pretraining en posttraining. Concreet wijkt de gemaskeerde dataverdeling tijdens de posttraining significant af van de real-world dataverdeling gezien tijdens de pretraining, en dLLM's steunen op bidirectionele aandacht, wat botst met de causale prior die tijdens de pretraining is aangeleerd en de integratie van exacte KV-cache-hergebruik belemmert. Om dit aan te pakken, introduceren we Jacobi Forcing, een progressief distillatieparadigma waarbij modellen worden getraind op hun eigen gegenereerde parallelle decodeertrajecten. Dit verschuift AR-modellen soepel naar efficiënte parallelle decoders, waarbij hun voorgetrainde causale inferentie-eigenschap behouden blijft. De modellen die onder dit paradigma zijn getraind, de Jacobi Forcing Model, behaalt een 3,8x wall-clock versnelling op coderings- en wiskundige benchmarks met minimaal prestatieverlies. Gebaseerd op de trajectkenmerken van Jacobi Forcing Models, introduceren we multi-blok decodering met afwijzingsrecyclage, wat tot 4,5x hogere tokenacceptatie per iteratie en een bijna 4,0x wall-clock versnelling mogelijk maakt, waarbij effectief extra rekenkracht wordt ingewisseld voor lagere inferentielatentie. Onze code is beschikbaar op https://github.com/hao-ai-lab/JacobiForcing.

English

Multi-token generation has emerged as a promising paradigm for accelerating transformer-based large model inference. Recent efforts primarily explore diffusion Large Language Models (dLLMs) for parallel decoding to reduce inference latency. To achieve AR-level generation quality, many techniques adapt AR models into dLLMs to enable parallel decoding. However, they suffer from limited speedup compared to AR models due to a pretrain-to-posttrain mismatch. Specifically, the masked data distribution in post-training deviates significantly from the real-world data distribution seen during pretraining, and dLLMs rely on bidirectional attention, which conflicts with the causal prior learned during pretraining and hinders the integration of exact KV cache reuse. To address this, we introduce Jacobi Forcing, a progressive distillation paradigm where models are trained on their own generated parallel decoding trajectories, smoothly shifting AR models into efficient parallel decoders while preserving their pretrained causal inference property. The models trained under this paradigm, Jacobi Forcing Model, achieves 3.8x wall-clock speedup on coding and math benchmarks with minimal loss in performance. Based on Jacobi Forcing Models' trajectory characteristics, we introduce multi-block decoding with rejection recycling, which enables up to 4.5x higher token acceptance count per iteration and nearly 4.0x wall-clock speedup, effectively trading additional compute for lower inference latency. Our code is available at https://github.com/hao-ai-lab/JacobiForcing.

Snelle en Nauwkeurige Causale Parallelle Decodering met Jacobi-forceren

Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

Samenvatting

Support