ChatPaper.aiChatPaper

MonoFormer: Ein Transformer für sowohl Diffusion als auch Autoregression

MonoFormer: One Transformer for Both Diffusion and Autoregression

September 24, 2024
Autoren: Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, Jingdong Wang
cs.AI

Zusammenfassung

Die meisten bestehenden Multimodalitätsmethoden verwenden separate Backbones für die autoregressionsbasierte diskrete Textgenerierung und die diffusionsbasierte kontinuierliche visuelle Generierung oder denselben Backbone durch Diskretisierung der visuellen Daten zur Verwendung von Autoregression für sowohl Text- als auch visuelle Generierung. In diesem Paper schlagen wir vor, eine einfache Idee zu untersuchen: die gemeinsame Nutzung eines Transformers für sowohl Autoregression als auch Diffusion. Die Machbarkeit ergibt sich aus zwei Hauptaspekten: (i) Der Transformer wird erfolgreich auf Diffusion für die visuelle Generierung angewendet, und (ii) das Transformer-Training für Autoregression und Diffusion ist sehr ähnlich, wobei der einzige Unterschied darin besteht, dass Diffusion eine bidirektionale Aufmerksamkeitsmaske verwendet und Autoregression eine kausale Aufmerksamkeitsmaske verwendet. Experimentelle Ergebnisse zeigen, dass unser Ansatz eine vergleichbare Bildgenerierungsleistung wie aktuelle State-of-the-Art-Methoden erreicht und gleichzeitig die Textgenerierungsfähigkeit beibehält. Das Projekt ist öffentlich unter https://monoformer.github.io/ verfügbar.
English
Most existing multimodality methods use separate backbones for autoregression-based discrete text generation and diffusion-based continuous visual generation, or the same backbone by discretizing the visual data to use autoregression for both text and visual generation. In this paper, we propose to study a simple idea: share one transformer for both autoregression and diffusion. The feasibility comes from two main aspects: (i) Transformer is successfully applied to diffusion for visual generation, and (ii) transformer training for autoregression and diffusion is very similar, and the difference merely lies in that diffusion uses bidirectional attention mask and autoregression uses causal attention mask. Experimental results show that our approach achieves comparable image generation performance to current state-of-the-art methods as well as maintains the text generation capability. The project is publicly available at https://monoformer.github.io/.

Summary

AI-Generated Summary

PDF184November 16, 2024