TiDAR: Pensar en Difusión, Hablar en Autoregresión

Resumen

Los modelos de lenguaje de difusión prometen una generación paralela rápida, mientras que los modelos autorregresivos (AR) suelen destacar en calidad debido a que su estructura causal se alinea naturalmente con el modelado del lenguaje. Esto plantea una pregunta fundamental: ¿podemos lograr una sinergia con alto rendimiento, mayor utilización de GPU y calidad a nivel AR? Los métodos existentes no logran equilibrar eficazmente estos dos aspectos: o priorizan AR usando un modelo más débil para borradores secuenciales (decodificación especulativa), lo que conduce a una menor eficiencia de draftado, o utilizan alguna forma de lógica de decodificación izquierda-derecha (similar a AR) para difusión, lo que aún sufre degradación de calidad y sacrifica su potencial paralelización. Presentamos TiDAR, una arquitectura híbrida a nivel de secuencia que genera borradores de tokens (Thinking) en Difusión y muestrea salidas finales (Talking) de forma Autorregresiva, todo dentro de un único pase forward usando máscaras de atención estructuradas especialmente diseñadas. Este diseño aprovecha la densidad de cómputo libre de la GPU, logrando un equilibrio sólido entre la capacidad de draftado y verificación. Además, TiDAR está diseñado para ser apto para despliegue (baja sobrecarga) como modelo independiente. Evaluamos exhaustivamente TiDAR frente a modelos AR, decodificación especulativa y variantes de difusión en tareas generativas y de verosimilitud en escalas de 1.5B y 8B. Gracias al draftado y muestreo paralelos, así como al soporte exacto de caché KV, TiDAR supera a la decodificación especulativa en rendimiento medido y supera a modelos de difusión como Dream y Llada tanto en eficiencia como en calidad. Más notablemente, TiDAR es la primera arquitectura en cerrar la brecha de calidad con los modelos AR mientras ofrece entre 4.71x y 5.91x más tokens por segundo.

English

Diffusion language models hold the promise of fast parallel generation, while autoregressive (AR) models typically excel in quality due to their causal structure aligning naturally with language modeling. This raises a fundamental question: can we achieve a synergy with high throughput, higher GPU utilization, and AR level quality? Existing methods fail to effectively balance these two aspects, either prioritizing AR using a weaker model for sequential drafting (speculative decoding), leading to lower drafting efficiency, or using some form of left-to-right (AR-like) decoding logic for diffusion, which still suffers from quality degradation and forfeits its potential parallelizability. We introduce TiDAR, a sequence-level hybrid architecture that drafts tokens (Thinking) in Diffusion and samples final outputs (Talking) AutoRegressively - all within a single forward pass using specially designed structured attention masks. This design exploits the free GPU compute density, achieving a strong balance between drafting and verification capacity. Moreover, TiDAR is designed to be serving-friendly (low overhead) as a standalone model. We extensively evaluate TiDAR against AR models, speculative decoding, and diffusion variants across generative and likelihood tasks at 1.5B and 8B scales. Thanks to the parallel drafting and sampling as well as exact KV cache support, TiDAR outperforms speculative decoding in measured throughput and surpasses diffusion models like Dream and Llada in both efficiency and quality. Most notably, TiDAR is the first architecture to close the quality gap with AR models while delivering 4.71x to 5.91x more tokens per second.

TiDAR: Pensar en Difusión, Hablar en Autoregresión

TiDAR: Think in Diffusion, Talk in Autoregression

Resumen

Support