ChatPaper.aiChatPaper

TiDAR: 확산으로 사고하고, 자기회귀로 발화하기

TiDAR: Think in Diffusion, Talk in Autoregression

November 12, 2025
저자: Jingyu Liu, Xin Dong, Zhifan Ye, Rishabh Mehta, Yonggan Fu, Vartika Singh, Jan Kautz, Ce Zhang, Pavlo Molchanov
cs.AI

초록

확산 언어 모델은 빠른 병렬 생성을 가능하게 하는 잠재력을 지니는 반면, 자기회귀(AR) 모델은 일반적으로 언어 모델링과 자연스럽게 부합하는 인과적 구조 덕분에 품질 측면에서 뛰어난 성능을 보입니다. 이로 인해 다음과 같은 근본적인 의문이 제기됩니다: 높은 처리량, 향상된 GPU 활용률, 그리고 AR 수준의 품질을 모두 갖춘 시너지를 달성할 수 있을까? 기존 방법론들은 이 두 가지 측면을 효과적으로 균형 잡지 못하며, AR을 우선시하여 약한 모델을 순차적 초안 생성(특수 디코딩)에 사용함으로써 낮은 초안 작성 효율을 보이거나, 확산 모델에 어떤 형태의 좌측-우측(AR 스타일) 디코딩 논리를 적용하여 여전히 품질 저하가 발생하고 잠재적인 병렬화 가능성을 포기합니다. 우리는 TiDAR를 소개합니다. 이는 특수하게 설계된 구조화된 어텐션 마스크를 사용하여 단일 순전파 과정 내에서 확산 방식으로 토큰 초안을 생성(Thinking)하고 자기회귀 방식으로 최종 출력을 샘플링(Talking)하는 시퀀스 수준의 하이브리드 아키텍처입니다. 이 설계는 유휴 GPU 컴퓨팅 자원을 최대한 활용하여 초안 생성 능력과 검증 능력 사이의 강력한 균형을 달성합니다. 더욱이 TiDAR는 독립형 모델로서 서비스 배포에 친화적(낮은 오버헤드)으로 설계되었습니다. 우리는 TiDAR를 1.5B 및 8B 규모의 생성 및 가능도 작업에서 AR 모델, 특수 디코딩, 그리고 다양한 확산 모델 변형들과 비교하여 광범위하게 평가했습니다. 병렬 초안 생성 및 샘플링과 정확한 KV 캐시 지원 덕분에 TiDAR는 측정된 처리량에서 특수 디코딩을 능가하며, Dream이나 Llada와 같은 확산 모델들을 효율성과 품질 모두에서 뛰어넘습니다. 특히 주목할 만한 점은, TiDAR는 AR 모델과의 품질 격차를 해소하면서 동시에 초당 4.71배에서 5.91배 더 많은 토큰을 생성하는 최초의 아키텍처입니다.
English
Diffusion language models hold the promise of fast parallel generation, while autoregressive (AR) models typically excel in quality due to their causal structure aligning naturally with language modeling. This raises a fundamental question: can we achieve a synergy with high throughput, higher GPU utilization, and AR level quality? Existing methods fail to effectively balance these two aspects, either prioritizing AR using a weaker model for sequential drafting (speculative decoding), leading to lower drafting efficiency, or using some form of left-to-right (AR-like) decoding logic for diffusion, which still suffers from quality degradation and forfeits its potential parallelizability. We introduce TiDAR, a sequence-level hybrid architecture that drafts tokens (Thinking) in Diffusion and samples final outputs (Talking) AutoRegressively - all within a single forward pass using specially designed structured attention masks. This design exploits the free GPU compute density, achieving a strong balance between drafting and verification capacity. Moreover, TiDAR is designed to be serving-friendly (low overhead) as a standalone model. We extensively evaluate TiDAR against AR models, speculative decoding, and diffusion variants across generative and likelihood tasks at 1.5B and 8B scales. Thanks to the parallel drafting and sampling as well as exact KV cache support, TiDAR outperforms speculative decoding in measured throughput and surpasses diffusion models like Dream and Llada in both efficiency and quality. Most notably, TiDAR is the first architecture to close the quality gap with AR models while delivering 4.71x to 5.91x more tokens per second.
PDF1084December 1, 2025