Die Kombination von autoregressivem Transformer und Diffusion mit Multi-Reference-Autoregression
Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression
June 11, 2025
Autoren: Dingcheng Zhen, Qian Qiao, Tan Yu, Kangxi Wu, Ziwei Zhang, Siyuan Liu, Shunshun Yin, Ming Tao
cs.AI
Zusammenfassung
Wir stellen TransDiff vor, das erste Bildgenerierungsmodell, das einen autoregressiven (AR) Transformer mit Diffusionsmodellen kombiniert. In diesem gemeinsamen Modellierungsrahmen kodiert TransDiff Labels und Bilder in hochgradige semantische Merkmale und verwendet ein Diffusionsmodell, um die Verteilung der Bildbeispiele zu schätzen. Auf dem ImageNet 256x256-Benchmark übertrifft TransDiff deutlich andere Bildgenerierungsmodelle, die auf eigenständigen AR-Transformatoren oder Diffusionsmodellen basieren. Insbesondere erreicht TransDiff eine Fréchet Inception Distance (FID) von 1,61 und einen Inception Score (IS) von 293,4 und bietet darüber hinaus eine um den Faktor 2 schnellere Inferenzlatenz im Vergleich zu state-of-the-art Methoden, die auf AR-Transformatoren basieren, sowie eine um den Faktor 112 schnellere Inferenz im Vergleich zu reinen Diffusionsmodellen. Darüber hinaus führen wir aufbauend auf dem TransDiff-Modell ein neuartiges Bildgenerierungsparadigma namens Multi-Reference Autoregression (MRAR) ein, das eine autoregressive Generierung durch die Vorhersage des nächsten Bildes durchführt. MRAR ermöglicht es dem Modell, auf mehrere zuvor generierte Bilder zu verweisen, wodurch das Lernen vielfältigerer Darstellungen erleichtert und die Qualität der generierten Bilder in nachfolgenden Iterationen verbessert wird. Durch die Anwendung von MRAR wird die Leistung von TransDiff verbessert, wobei die FID von 1,61 auf 1,42 reduziert wird. Wir erwarten, dass TransDiff ein neues Kapitel im Bereich der Bildgenerierung eröffnen wird.
English
We introduce TransDiff, the first image generation model that marries
Autoregressive (AR) Transformer with diffusion models. In this joint modeling
framework, TransDiff encodes labels and images into high-level semantic
features and employs a diffusion model to estimate the distribution of image
samples. On the ImageNet 256x256 benchmark, TransDiff significantly outperforms
other image generation models based on standalone AR Transformer or diffusion
models. Specifically, TransDiff achieves a Fr\'echet Inception Distance (FID)
of 1.61 and an Inception Score (IS) of 293.4, and further provides x2 faster
inference latency compared to state-of-the-art methods based on AR Transformer
and x112 faster inference compared to diffusion-only models. Furthermore,
building on the TransDiff model, we introduce a novel image generation paradigm
called Multi-Reference Autoregression (MRAR), which performs autoregressive
generation by predicting the next image. MRAR enables the model to reference
multiple previously generated images, thereby facilitating the learning of more
diverse representations and improving the quality of generated images in
subsequent iterations. By applying MRAR, the performance of TransDiff is
improved, with the FID reduced from 1.61 to 1.42. We expect TransDiff to open
up a new frontier in the field of image generation.