TiDAR: Denken in Diffusion, Sprechen in Autoregression

papers.abstract

Diffusions-Sprachmodelle versprechen eine schnelle parallele Generierung, während autoregressive (AR) Modelle typischerweise aufgrund ihrer kausalen Struktur, die sich natürlich mit Sprachmodellierung deckt, in der Qualität überzeugen. Dies wirft eine grundlegende Frage auf: Können wir eine Synergie mit hohem Durchsatz, höherer GPU-Auslastung und AR-Qualität erreichen? Bisherige Methoden schaffen es nicht, diese beiden Aspekte effektiv auszubalancieren. Sie priorisieren entweder AR, indem sie ein schwächeres Modell für sequenzielles Entwerfen verwenden (spekulatives Decodieren), was zu einer geringeren Entwurfseffizienz führt, oder sie verwenden eine Form von Links-nach-rechts (AR-ähnlicher) Decodierlogik für Diffusion, was immer noch unter Qualitätseinbußen leidet und ihr paralleles Potenzial verschenkt. Wir stellen TiDAR vor, eine hybride Architektur auf Sequenzebene, die Token (Denken) per Diffusion entwirft und endgültige Ausgaben (Sprechen) autoregressiv sampelt – alles innerhalb eines einzigen Vorwärtsdurchlaufs mittels speziell gestalteter strukturierter Attention-Masken. Dieses Design macht sich die verfügbare GPU-Rechenleistung zunutze und erreicht eine starke Balance zwischen Entwurfs- und Verifikationskapazität. Darüber hinaus ist TiDAR als eigenständiges Modell servicetauglich (geringer Overhead) konzipiert. Wir evaluieren TiDAR umfassend gegen AR-Modelle, spekulatives Decodieren und Diffusionsvarianten in Generierungs- und Likelihood-Aufgaben bei 1,5B und 8B Parametern. Dank des parallelen Entwerfens und Samplings sowie der Unterstützung exaktem KV-Cachings übertrifft TiDAR den gemessenen Durchsatz von spekulativem Decodieren und übertrifft Diffusionsmodelle wie Dream und Llada sowohl in Effizienz als auch Qualität. Besonders bemerkenswert ist, dass TiDAR die erste Architektur ist, die die Qualitätslücke zu AR-Modellen schließt und dabei 4,71x bis 5,91x mehr Token pro Sekunde liefert.

English

Diffusion language models hold the promise of fast parallel generation, while autoregressive (AR) models typically excel in quality due to their causal structure aligning naturally with language modeling. This raises a fundamental question: can we achieve a synergy with high throughput, higher GPU utilization, and AR level quality? Existing methods fail to effectively balance these two aspects, either prioritizing AR using a weaker model for sequential drafting (speculative decoding), leading to lower drafting efficiency, or using some form of left-to-right (AR-like) decoding logic for diffusion, which still suffers from quality degradation and forfeits its potential parallelizability. We introduce TiDAR, a sequence-level hybrid architecture that drafts tokens (Thinking) in Diffusion and samples final outputs (Talking) AutoRegressively - all within a single forward pass using specially designed structured attention masks. This design exploits the free GPU compute density, achieving a strong balance between drafting and verification capacity. Moreover, TiDAR is designed to be serving-friendly (low overhead) as a standalone model. We extensively evaluate TiDAR against AR models, speculative decoding, and diffusion variants across generative and likelihood tasks at 1.5B and 8B scales. Thanks to the parallel drafting and sampling as well as exact KV cache support, TiDAR outperforms speculative decoding in measured throughput and surpasses diffusion models like Dream and Llada in both efficiency and quality. Most notably, TiDAR is the first architecture to close the quality gap with AR models while delivering 4.71x to 5.91x more tokens per second.

TiDAR: Denken in Diffusion, Sprechen in Autoregression

TiDAR: Think in Diffusion, Talk in Autoregression

papers.abstract

Support