ChatPaper.aiChatPaper

MonoFormer: Eén Transformer voor zowel Diffusie als Autoregressie

MonoFormer: One Transformer for Both Diffusion and Autoregression

September 24, 2024
Auteurs: Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, Jingdong Wang
cs.AI

Samenvatting

De meeste bestaande multimodaliteitsmethoden maken gebruik van afzonderlijke backbones voor autoregressie-gebaseerde discrete tekstgeneratie en diffusie-gebaseerde continue visuele generatie, of dezelfde backbone door de visuele gegevens te discretiseren om autoregressie te gebruiken voor zowel tekst- als visuele generatie. In dit artikel stellen we voor om een eenvoudig idee te bestuderen: deel één transformer voor zowel autoregressie als diffusie. De haalbaarheid komt voort uit twee hoofdaspecten: (i) Transformer wordt succesvol toegepast op diffusie voor visuele generatie, en (ii) de training van transformer voor autoregressie en diffusie is zeer vergelijkbaar, waarbij het verschil slechts ligt in het feit dat diffusie een bidirectionele aandachtsmasker gebruikt en autoregressie een causaal aandachtsmasker gebruikt. Experimentele resultaten tonen aan dat onze aanpak vergelijkbare prestaties behaalt op het gebied van beeldgeneratie als de huidige state-of-the-art methoden en tegelijkertijd de tekstgeneratiecapaciteit behoudt. Het project is openbaar beschikbaar op https://monoformer.github.io/.
English
Most existing multimodality methods use separate backbones for autoregression-based discrete text generation and diffusion-based continuous visual generation, or the same backbone by discretizing the visual data to use autoregression for both text and visual generation. In this paper, we propose to study a simple idea: share one transformer for both autoregression and diffusion. The feasibility comes from two main aspects: (i) Transformer is successfully applied to diffusion for visual generation, and (ii) transformer training for autoregression and diffusion is very similar, and the difference merely lies in that diffusion uses bidirectional attention mask and autoregression uses causal attention mask. Experimental results show that our approach achieves comparable image generation performance to current state-of-the-art methods as well as maintains the text generation capability. The project is publicly available at https://monoformer.github.io/.

Summary

AI-Generated Summary

PDF184November 16, 2024