ChatPaper.aiChatPaper

MonoFormer : Un Transformer pour la Diffusion et l'Autorégression

MonoFormer: One Transformer for Both Diffusion and Autoregression

September 24, 2024
Auteurs: Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, Jingdong Wang
cs.AI

Résumé

La plupart des méthodes de multimodalité existantes utilisent des colonnes vertébrales distinctes pour la génération de texte discrète basée sur l'autorégression et la génération visuelle continue basée sur la diffusion, ou la même colonne vertébrale en discrétisant les données visuelles pour utiliser l'autorégression à la fois pour le texte et la génération visuelle. Dans cet article, nous proposons d'étudier une idée simple : partager un transformateur pour à la fois l'autorégression et la diffusion. La faisabilité découle de deux aspects principaux : (i) Le transformateur est appliqué avec succès à la diffusion pour la génération visuelle, et (ii) l'entraînement du transformateur pour l'autorégression et la diffusion est très similaire, la différence réside simplement dans le fait que la diffusion utilise un masque d'attention bidirectionnel et l'autorégression utilise un masque d'attention causale. Les résultats expérimentaux montrent que notre approche atteint des performances de génération d'images comparables aux méthodes de pointe actuelles tout en maintenant la capacité de génération de texte. Le projet est disponible publiquement sur https://monoformer.github.io/.
English
Most existing multimodality methods use separate backbones for autoregression-based discrete text generation and diffusion-based continuous visual generation, or the same backbone by discretizing the visual data to use autoregression for both text and visual generation. In this paper, we propose to study a simple idea: share one transformer for both autoregression and diffusion. The feasibility comes from two main aspects: (i) Transformer is successfully applied to diffusion for visual generation, and (ii) transformer training for autoregression and diffusion is very similar, and the difference merely lies in that diffusion uses bidirectional attention mask and autoregression uses causal attention mask. Experimental results show that our approach achieves comparable image generation performance to current state-of-the-art methods as well as maintains the text generation capability. The project is publicly available at https://monoformer.github.io/.

Summary

AI-Generated Summary

PDF184November 16, 2024