Casando o Transformer Autorregressivo e a Difusão com Autoregressão Multi-Referência
Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression
June 11, 2025
Autores: Dingcheng Zhen, Qian Qiao, Tan Yu, Kangxi Wu, Ziwei Zhang, Siyuan Liu, Shunshun Yin, Ming Tao
cs.AI
Resumo
Apresentamos o TransDiff, o primeiro modelo de geração de imagens que combina Transformers Autoregressivos (AR) com modelos de difusão. Neste framework de modelagem conjunta, o TransDiff codifica rótulos e imagens em características semânticas de alto nível e emprega um modelo de difusão para estimar a distribuição das amostras de imagem. No benchmark ImageNet 256x256, o TransDiff supera significativamente outros modelos de geração de imagens baseados em Transformers AR ou modelos de difusão isolados. Especificamente, o TransDiff alcança uma Distância de Fréchet Inception (FID) de 1,61 e um Inception Score (IS) de 293,4, além de oferecer uma latência de inferência 2x mais rápida em comparação com os métodos state-of-the-art baseados em Transformers AR e 112x mais rápida em relação aos modelos exclusivamente de difusão. Além disso, com base no modelo TransDiff, introduzimos um novo paradigma de geração de imagens chamado Autoregressão Multi-Referência (MRAR), que realiza a geração autoregressiva prevendo a próxima imagem. O MRAR permite que o modelo faça referência a múltiplas imagens previamente geradas, facilitando assim a aprendizagem de representações mais diversas e melhorando a qualidade das imagens geradas em iterações subsequentes. Ao aplicar o MRAR, o desempenho do TransDiff é aprimorado, com o FID reduzido de 1,61 para 1,42. Esperamos que o TransDiff abra uma nova fronteira no campo de geração de imagens.
English
We introduce TransDiff, the first image generation model that marries
Autoregressive (AR) Transformer with diffusion models. In this joint modeling
framework, TransDiff encodes labels and images into high-level semantic
features and employs a diffusion model to estimate the distribution of image
samples. On the ImageNet 256x256 benchmark, TransDiff significantly outperforms
other image generation models based on standalone AR Transformer or diffusion
models. Specifically, TransDiff achieves a Fr\'echet Inception Distance (FID)
of 1.61 and an Inception Score (IS) of 293.4, and further provides x2 faster
inference latency compared to state-of-the-art methods based on AR Transformer
and x112 faster inference compared to diffusion-only models. Furthermore,
building on the TransDiff model, we introduce a novel image generation paradigm
called Multi-Reference Autoregression (MRAR), which performs autoregressive
generation by predicting the next image. MRAR enables the model to reference
multiple previously generated images, thereby facilitating the learning of more
diverse representations and improving the quality of generated images in
subsequent iterations. By applying MRAR, the performance of TransDiff is
improved, with the FID reduced from 1.61 to 1.42. We expect TransDiff to open
up a new frontier in the field of image generation.