TiDAR: Denken in Diffusie, Praten in Autoregressie

Samenvatting

Diffusietaalmodellen beloven snelle parallelle generatie, terwijl autoregressieve (AR) modellen doorgaans uitblinken in kwaliteit dankzij hun causale structuur die natuurlijk aansluit bij taalmodelering. Dit roept een fundamentele vraag op: kunnen we een synergie bereiken met een hoge doorvoer, hoger GPU-gebruik en AR-kwaliteit? Bestaande methoden slagen er niet in deze twee aspecten effectief in evenwicht te brengen; ze prioriteren ofwel AR door een zwakker model te gebruiken voor sequentiële drafting (speculatieve decodering), wat leidt tot lagere drafting-efficiëntie, of ze gebruiken een vorm van links-naar-rechts (AR-achtige) decoderinglogica voor diffusie, wat nog steeds kwaliteitsverlies veroorzaakt en het parallelle potentieel tenietdoet. Wij introduceren TiDAR, een hybride architectuur op sequentieniveau die tokens draft (Thinking) in Diffusie en de uiteindelijke uitvoer samplet (Talking) AutoRegressief – alles in een enkele voorwaartse pass met speciaal ontworpen gestructureerde aandachtmaskers. Dit ontwerp benut de beschikbare GPU-rekenkracht optimaal en bereikt een sterke balans tussen drafting- en verificatiecapaciteit. Bovendien is TiDAR ontworpen als servicvriendelijk model (lage overhead) dat op zichzelf staat. We evalueren TiDAR uitgebreid tegenover AR-modellen, speculatieve decodering en diffusievarianten voor generatieve en likelihood-taken op 1.5B en 8B schaal. Dankzij de parallelle drafting en sampling, evenals ondersteuning voor een exacte KV-cache, overtreft TiDAR speculatieve decodering in gemeten doorvoer en overstijgt het diffusiemodellen zoals Dream en Llada in zowel efficiëntie als kwaliteit. Opmerkelijk is dat TiDAR de eerste architectuur is die de kwaliteitskloof met AR-modellen dicht, terwijl het 4.71x tot 5.91x meer tokens per seconde levert.

English

Diffusion language models hold the promise of fast parallel generation, while autoregressive (AR) models typically excel in quality due to their causal structure aligning naturally with language modeling. This raises a fundamental question: can we achieve a synergy with high throughput, higher GPU utilization, and AR level quality? Existing methods fail to effectively balance these two aspects, either prioritizing AR using a weaker model for sequential drafting (speculative decoding), leading to lower drafting efficiency, or using some form of left-to-right (AR-like) decoding logic for diffusion, which still suffers from quality degradation and forfeits its potential parallelizability. We introduce TiDAR, a sequence-level hybrid architecture that drafts tokens (Thinking) in Diffusion and samples final outputs (Talking) AutoRegressively - all within a single forward pass using specially designed structured attention masks. This design exploits the free GPU compute density, achieving a strong balance between drafting and verification capacity. Moreover, TiDAR is designed to be serving-friendly (low overhead) as a standalone model. We extensively evaluate TiDAR against AR models, speculative decoding, and diffusion variants across generative and likelihood tasks at 1.5B and 8B scales. Thanks to the parallel drafting and sampling as well as exact KV cache support, TiDAR outperforms speculative decoding in measured throughput and surpasses diffusion models like Dream and Llada in both efficiency and quality. Most notably, TiDAR is the first architecture to close the quality gap with AR models while delivering 4.71x to 5.91x more tokens per second.

TiDAR: Denken in Diffusie, Praten in Autoregressie

TiDAR: Think in Diffusion, Talk in Autoregression

Samenvatting

Support