TiDAR : Penser en diffusion, parler en autorégression

papers.abstract

Les modèles de langage par diffusion promettent une génération parallèle rapide, tandis que les modèles autorégressifs (AR) excellent généralement en qualité grâce à leur structure causale qui s'aligne naturellement avec la modélisation du langage. Cela soulève une question fondamentale : pouvons-nous réaliser une synergie offrant un débit élevé, une meilleure utilisation des GPU et une qualité équivalente aux modèles AR ? Les méthodes existantes échouent à équilibrer efficacement ces deux aspects, soit en privilégiant l'AR en utilisant un modèle plus faible pour l'ébauche séquentielle (décodage spéculatif), ce qui conduit à une efficacité d'ébauche réduite, soit en utilisant une forme de logique de décodage gauche-droite (de type AR) pour la diffusion, ce qui souffre encore d'une dégradation de la qualité et sacrifie son potentiel de parallélisation. Nous présentons TiDAR, une architecture hybride au niveau séquentiel qui ébauche les tokens (Thinking) par diffusion et échantillonne les sorties finales (Talking) de manière autorégressive - le tout en une seule passe avant grâce à des masques d'attention structurés spécialement conçus. Cette conception exploite la densité de calcul GPU disponible, atteignant un équilibre solide entre la capacité d'ébauche et de vérification. De plus, TiDAR est conçu pour être adapté au déploiement (faible surcharge) en tant que modèle autonome. Nous évaluons extensivement TiDAR contre les modèles AR, le décodage spéculatif et les variantes de diffusion sur des tâches génératives et de vraisemblance aux échelles 1,5B et 8B. Grâce à l'ébauche et à l'échantillonnage parallèles ainsi qu'au support exact du cache KV, TiDAR surpasse le décodage spéculatif en débit mesuré et dépasse les modèles de diffusion comme Dream et Llada en efficacité et en qualité. Plus notablement, TiDAR est la première architecture à combler l'écart de qualité avec les modèles AR tout en délivrant de 4,71x à 5,91x plus de tokens par seconde.

English

Diffusion language models hold the promise of fast parallel generation, while autoregressive (AR) models typically excel in quality due to their causal structure aligning naturally with language modeling. This raises a fundamental question: can we achieve a synergy with high throughput, higher GPU utilization, and AR level quality? Existing methods fail to effectively balance these two aspects, either prioritizing AR using a weaker model for sequential drafting (speculative decoding), leading to lower drafting efficiency, or using some form of left-to-right (AR-like) decoding logic for diffusion, which still suffers from quality degradation and forfeits its potential parallelizability. We introduce TiDAR, a sequence-level hybrid architecture that drafts tokens (Thinking) in Diffusion and samples final outputs (Talking) AutoRegressively - all within a single forward pass using specially designed structured attention masks. This design exploits the free GPU compute density, achieving a strong balance between drafting and verification capacity. Moreover, TiDAR is designed to be serving-friendly (low overhead) as a standalone model. We extensively evaluate TiDAR against AR models, speculative decoding, and diffusion variants across generative and likelihood tasks at 1.5B and 8B scales. Thanks to the parallel drafting and sampling as well as exact KV cache support, TiDAR outperforms speculative decoding in measured throughput and surpasses diffusion models like Dream and Llada in both efficiency and quality. Most notably, TiDAR is the first architecture to close the quality gap with AR models while delivering 4.71x to 5.91x more tokens per second.

TiDAR : Penser en diffusion, parler en autorégression

TiDAR: Think in Diffusion, Talk in Autoregression

papers.abstract

Support