ChatPaper.aiChatPaper

MonoFormer: Um Transformer para Difusão e Autoregressão

MonoFormer: One Transformer for Both Diffusion and Autoregression

September 24, 2024
Autores: Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, Jingdong Wang
cs.AI

Resumo

A maioria dos métodos de multimodalidade existentes utiliza espinhas dorsais separadas para geração de texto discreto baseada em autorregressão e geração visual contínua baseada em difusão, ou a mesma espinha dorsal ao discretizar os dados visuais para usar autorregressão tanto para texto quanto para geração visual. Neste artigo, propomos estudar uma ideia simples: compartilhar um transformador para tanto autorregressão quanto difusão. A viabilidade advém de dois aspectos principais: (i) O Transformer é aplicado com sucesso à difusão para geração visual, e (ii) o treinamento do transformer para autorregressão e difusão é muito semelhante, sendo a diferença meramente que a difusão utiliza máscara de atenção bidirecional e a autorregressão utiliza máscara de atenção causal. Resultados experimentais mostram que nossa abordagem alcança desempenho comparável na geração de imagens aos métodos de ponta atuais, além de manter a capacidade de geração de texto. O projeto está publicamente disponível em https://monoformer.github.io/.
English
Most existing multimodality methods use separate backbones for autoregression-based discrete text generation and diffusion-based continuous visual generation, or the same backbone by discretizing the visual data to use autoregression for both text and visual generation. In this paper, we propose to study a simple idea: share one transformer for both autoregression and diffusion. The feasibility comes from two main aspects: (i) Transformer is successfully applied to diffusion for visual generation, and (ii) transformer training for autoregression and diffusion is very similar, and the difference merely lies in that diffusion uses bidirectional attention mask and autoregression uses causal attention mask. Experimental results show that our approach achieves comparable image generation performance to current state-of-the-art methods as well as maintains the text generation capability. The project is publicly available at https://monoformer.github.io/.

Summary

AI-Generated Summary

PDF184November 16, 2024