TiDAR: Pensar em Difusão, Falar em Autorregressão

Resumo

Os modelos de linguagem de difusão prometem geração paralela rápida, enquanto os modelos autoregressivos (AR) geralmente se destacam em qualidade devido à sua estrutura causal alinhada naturalmente com a modelagem de linguagem. Isso levanta uma questão fundamental: podemos alcançar uma sinergia com alta taxa de transferência, maior utilização da GPU e qualidade equivalente à AR? Os métodos existentes não conseguem equilibrar efetivamente esses dois aspectos, seja priorizando AR usando um modelo mais fraco para rascunho sequencial (decodificação especulativa), resultando em menor eficiência de rascunho, ou usando alguma forma de lógica de decodificação esquerda-para-direita (semelhante à AR) para difusão, o que ainda sofre de degradação de qualidade e perde seu potencial de paralelização. Apresentamos o TiDAR, uma arquitetura híbrida em nível de sequência que rascunha tokens (Pensamento) em Difusão e amostra saídas finais (Fala) de forma AutoRegressiva - tudo em uma única passagem direta usando máscaras de atenção estruturadas especialmente projetadas. Este projeto explora a densidade de computação gratuita da GPU, alcançando um forte equilíbrio entre capacidade de rascunho e verificação. Além disso, o TiDAR foi projetado para ser adequado para servidores (baixa sobrecarga) como um modelo independente. Avaliamos extensivamente o TiDAR contra modelos AR, decodificação especulativa e variantes de difusão em tarefas generativas e de verossimilhança nas escalas de 1,5B e 8B. Graças ao rascunho e amostragem paralelos, bem como ao suporte exato ao cache KV, o TiDAR supera a decodificação especulativa em taxa de transferência medida e ultrapassa modelos de difusão como Dream e Llada em eficiência e qualidade. Mais notavelmente, o TiDAR é a primeira arquitetura a fechar a lacuna de qualidade com os modelos AR enquanto fornece de 4,71x a 5,91x mais tokens por segundo.

English

Diffusion language models hold the promise of fast parallel generation, while autoregressive (AR) models typically excel in quality due to their causal structure aligning naturally with language modeling. This raises a fundamental question: can we achieve a synergy with high throughput, higher GPU utilization, and AR level quality? Existing methods fail to effectively balance these two aspects, either prioritizing AR using a weaker model for sequential drafting (speculative decoding), leading to lower drafting efficiency, or using some form of left-to-right (AR-like) decoding logic for diffusion, which still suffers from quality degradation and forfeits its potential parallelizability. We introduce TiDAR, a sequence-level hybrid architecture that drafts tokens (Thinking) in Diffusion and samples final outputs (Talking) AutoRegressively - all within a single forward pass using specially designed structured attention masks. This design exploits the free GPU compute density, achieving a strong balance between drafting and verification capacity. Moreover, TiDAR is designed to be serving-friendly (low overhead) as a standalone model. We extensively evaluate TiDAR against AR models, speculative decoding, and diffusion variants across generative and likelihood tasks at 1.5B and 8B scales. Thanks to the parallel drafting and sampling as well as exact KV cache support, TiDAR outperforms speculative decoding in measured throughput and surpasses diffusion models like Dream and Llada in both efficiency and quality. Most notably, TiDAR is the first architecture to close the quality gap with AR models while delivering 4.71x to 5.91x more tokens per second.

TiDAR: Pensar em Difusão, Falar em Autorregressão

TiDAR: Think in Diffusion, Talk in Autoregression

Resumo

Support