MonoFormer : Un Transformer pour la Diffusion et l'Autorégression
MonoFormer: One Transformer for Both Diffusion and Autoregression
September 24, 2024
Auteurs: Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, Jingdong Wang
cs.AI
Résumé
La plupart des méthodes de multimodalité existantes utilisent des colonnes vertébrales distinctes pour la génération de texte discrète basée sur l'autorégression et la génération visuelle continue basée sur la diffusion, ou la même colonne vertébrale en discrétisant les données visuelles pour utiliser l'autorégression à la fois pour le texte et la génération visuelle. Dans cet article, nous proposons d'étudier une idée simple : partager un transformateur pour à la fois l'autorégression et la diffusion. La faisabilité découle de deux aspects principaux : (i) Le transformateur est appliqué avec succès à la diffusion pour la génération visuelle, et (ii) l'entraînement du transformateur pour l'autorégression et la diffusion est très similaire, la différence réside simplement dans le fait que la diffusion utilise un masque d'attention bidirectionnel et l'autorégression utilise un masque d'attention causale. Les résultats expérimentaux montrent que notre approche atteint des performances de génération d'images comparables aux méthodes de pointe actuelles tout en maintenant la capacité de génération de texte. Le projet est disponible publiquement sur https://monoformer.github.io/.
English
Most existing multimodality methods use separate backbones for
autoregression-based discrete text generation and diffusion-based continuous
visual generation, or the same backbone by discretizing the visual data to use
autoregression for both text and visual generation. In this paper, we propose
to study a simple idea: share one transformer for both autoregression and
diffusion. The feasibility comes from two main aspects: (i) Transformer is
successfully applied to diffusion for visual generation, and (ii) transformer
training for autoregression and diffusion is very similar, and the difference
merely lies in that diffusion uses bidirectional attention mask and
autoregression uses causal attention mask. Experimental results show that our
approach achieves comparable image generation performance to current
state-of-the-art methods as well as maintains the text generation capability.
The project is publicly available at https://monoformer.github.io/.Summary
AI-Generated Summary