TiDAR: Pensare in Diffusione, Parlare in Autoregressione

Abstract

I modelli linguistici di diffusione promettono una generazione parallela e rapida, mentre i modelli autoregressivi (AR) eccellono tipicamente in qualità grazie alla loro struttura causale, che si allinea naturalmente con la modellazione del linguaggio. Ciò solleva una questione fondamentale: possiamo ottenere una sinergia con alto throughput, maggiore utilizzo della GPU e qualità pari a quella AR? I metodi esistenti non riescono a bilanciare efficacemente questi due aspetti, privilegiando o l'AR utilizzando un modello più debole per la stesura sequenziale (decodifica speculativa), con conseguente minore efficienza di draft, o utilizzando una qualche forma di logica di decodifica sinistra-destra (simile all'AR) per la diffusione, che soffre comunque di un degrado della qualità e perde la sua potenziale parallelizzabilità. Introduciamo TiDAR, un'architettura ibrida a livello di sequenza che genera bozze di token (Thinking) in modalità Diffusion e campiona gli output finali (Talking) in modo AutoRegressivo - il tutto all'interno di un unico passaggio in avanti mediante maschere di attenzione strutturate appositamente progettate. Questo progetto sfrutta la densità computazionale libera della GPU, raggiungendo un forte equilibrio tra capacità di stesura e verifica. Inoltre, TiDAR è progettato per essere friendly per il deployment (basso overhead) come modello autonomo. Valutiamo estensivamente TiDAR confrontandolo con modelli AR, decodifica speculativa e varianti di diffusione in compiti generativi e di likelihood su scale da 1.5B e 8B parametri. Grazie alla stesura e al campionamento paralleli, nonché al supporto esatto della KV cache, TiDAR supera la decodifica speculativa in termini di throughput misurato e supera modelli di diffusione come Dream e Llada sia in efficienza che in qualità. Soprattutto, TiDAR è la prima architettura a colmare il divario qualitativo con i modelli AR erogando da 4.71x a 5.91x token in più al secondo.

English

Diffusion language models hold the promise of fast parallel generation, while autoregressive (AR) models typically excel in quality due to their causal structure aligning naturally with language modeling. This raises a fundamental question: can we achieve a synergy with high throughput, higher GPU utilization, and AR level quality? Existing methods fail to effectively balance these two aspects, either prioritizing AR using a weaker model for sequential drafting (speculative decoding), leading to lower drafting efficiency, or using some form of left-to-right (AR-like) decoding logic for diffusion, which still suffers from quality degradation and forfeits its potential parallelizability. We introduce TiDAR, a sequence-level hybrid architecture that drafts tokens (Thinking) in Diffusion and samples final outputs (Talking) AutoRegressively - all within a single forward pass using specially designed structured attention masks. This design exploits the free GPU compute density, achieving a strong balance between drafting and verification capacity. Moreover, TiDAR is designed to be serving-friendly (low overhead) as a standalone model. We extensively evaluate TiDAR against AR models, speculative decoding, and diffusion variants across generative and likelihood tasks at 1.5B and 8B scales. Thanks to the parallel drafting and sampling as well as exact KV cache support, TiDAR outperforms speculative decoding in measured throughput and surpasses diffusion models like Dream and Llada in both efficiency and quality. Most notably, TiDAR is the first architecture to close the quality gap with AR models while delivering 4.71x to 5.91x more tokens per second.

TiDAR: Pensare in Diffusione, Parlare in Autoregressione

TiDAR: Think in Diffusion, Talk in Autoregression

Abstract

Support