TiDAR: Думай в диффузии, говори в авторегрессии

Аннотация

Диффузионные языковые модели обещают быструю параллельную генерацию, в то время как авторегрессионные (AR) модели обычно превосходят по качеству благодаря своей причинной структуре, которая естественным образом согласуется с моделированием языка. Это поднимает фундаментальный вопрос: можем ли мы достичь синергии с высокой пропускной способностью, повышенной загрузкой GPU и качеством на уровне AR моделей? Существующие методы не позволяют эффективно сбалансировать эти два аспекта: либо они отдают приоритет AR, используя более слабую модель для последовательного чернового генерирования (спекулятивное декодирование), что приводит к низкой эффективности черновиков, либо используют некоторую форму логики декодирования слева направо (подобную AR) для диффузии, что все еще страдает от снижения качества и теряет потенциальную распараллеливаемость. Мы представляем TiDAR — гибридную архитектуру на уровне последовательности, которая создает черновики токенов (Thinking) с помощью диффузии и финализирует выходные данные (Talking) авторегрессионно — все за один прямой проход с использованием специально разработанных структурированных масок внимания. Эта конструкция использует свободную вычислительную плотность GPU, достигая сильного баланса между способностью к черновому генерированию и верификации. Более того, TiDAR разработан как автономная модель, удобная для развертывания (с низкими накладными расходами). Мы всесторонне сравниваем TiDAR с AR моделями, спекулятивным декодированием и вариантами диффузионных моделей на задачах генерации и правдоподобия для масштабов 1.5B и 8B параметров. Благодаря параллельному созданию черновиков и семплированию, а также поддержке точного KV-кэша, TiDAR превосходит спекулятивное декодирование по измеренной пропускной способности и превосходит диффузионные модели, такие как Dream и Llada, как по эффективности, так и по качеству. Что наиболее важно, TiDAR является первой архитектурой, которая сокращает разрыв в качестве с AR моделями, при этом обеспечивая генерацию от 4.71x до 5.91x больше токенов в секунду.

English

Diffusion language models hold the promise of fast parallel generation, while autoregressive (AR) models typically excel in quality due to their causal structure aligning naturally with language modeling. This raises a fundamental question: can we achieve a synergy with high throughput, higher GPU utilization, and AR level quality? Existing methods fail to effectively balance these two aspects, either prioritizing AR using a weaker model for sequential drafting (speculative decoding), leading to lower drafting efficiency, or using some form of left-to-right (AR-like) decoding logic for diffusion, which still suffers from quality degradation and forfeits its potential parallelizability. We introduce TiDAR, a sequence-level hybrid architecture that drafts tokens (Thinking) in Diffusion and samples final outputs (Talking) AutoRegressively - all within a single forward pass using specially designed structured attention masks. This design exploits the free GPU compute density, achieving a strong balance between drafting and verification capacity. Moreover, TiDAR is designed to be serving-friendly (low overhead) as a standalone model. We extensively evaluate TiDAR against AR models, speculative decoding, and diffusion variants across generative and likelihood tasks at 1.5B and 8B scales. Thanks to the parallel drafting and sampling as well as exact KV cache support, TiDAR outperforms speculative decoding in measured throughput and surpasses diffusion models like Dream and Llada in both efficiency and quality. Most notably, TiDAR is the first architecture to close the quality gap with AR models while delivering 4.71x to 5.91x more tokens per second.

TiDAR: Думай в диффузии, говори в авторегрессии

TiDAR: Think in Diffusion, Talk in Autoregression

Аннотация

Support