ChatPaper.aiChatPaper

Casando o Transformer Autorregressivo e a Difusão com Autoregressão Multi-Referência

Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression

June 11, 2025
Autores: Dingcheng Zhen, Qian Qiao, Tan Yu, Kangxi Wu, Ziwei Zhang, Siyuan Liu, Shunshun Yin, Ming Tao
cs.AI

Resumo

Apresentamos o TransDiff, o primeiro modelo de geração de imagens que combina Transformers Autoregressivos (AR) com modelos de difusão. Neste framework de modelagem conjunta, o TransDiff codifica rótulos e imagens em características semânticas de alto nível e emprega um modelo de difusão para estimar a distribuição das amostras de imagem. No benchmark ImageNet 256x256, o TransDiff supera significativamente outros modelos de geração de imagens baseados em Transformers AR ou modelos de difusão isolados. Especificamente, o TransDiff alcança uma Distância de Fréchet Inception (FID) de 1,61 e um Inception Score (IS) de 293,4, além de oferecer uma latência de inferência 2x mais rápida em comparação com os métodos state-of-the-art baseados em Transformers AR e 112x mais rápida em relação aos modelos exclusivamente de difusão. Além disso, com base no modelo TransDiff, introduzimos um novo paradigma de geração de imagens chamado Autoregressão Multi-Referência (MRAR), que realiza a geração autoregressiva prevendo a próxima imagem. O MRAR permite que o modelo faça referência a múltiplas imagens previamente geradas, facilitando assim a aprendizagem de representações mais diversas e melhorando a qualidade das imagens geradas em iterações subsequentes. Ao aplicar o MRAR, o desempenho do TransDiff é aprimorado, com o FID reduzido de 1,61 para 1,42. Esperamos que o TransDiff abra uma nova fronteira no campo de geração de imagens.
English
We introduce TransDiff, the first image generation model that marries Autoregressive (AR) Transformer with diffusion models. In this joint modeling framework, TransDiff encodes labels and images into high-level semantic features and employs a diffusion model to estimate the distribution of image samples. On the ImageNet 256x256 benchmark, TransDiff significantly outperforms other image generation models based on standalone AR Transformer or diffusion models. Specifically, TransDiff achieves a Fr\'echet Inception Distance (FID) of 1.61 and an Inception Score (IS) of 293.4, and further provides x2 faster inference latency compared to state-of-the-art methods based on AR Transformer and x112 faster inference compared to diffusion-only models. Furthermore, building on the TransDiff model, we introduce a novel image generation paradigm called Multi-Reference Autoregression (MRAR), which performs autoregressive generation by predicting the next image. MRAR enables the model to reference multiple previously generated images, thereby facilitating the learning of more diverse representations and improving the quality of generated images in subsequent iterations. By applying MRAR, the performance of TransDiff is improved, with the FID reduced from 1.61 to 1.42. We expect TransDiff to open up a new frontier in the field of image generation.
PDF462June 17, 2025