ChatPaper.aiChatPaper

MonoFormer: Un Transformer per la Diffusione e l'Autoregressione

MonoFormer: One Transformer for Both Diffusion and Autoregression

September 24, 2024
Autori: Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, Jingdong Wang
cs.AI

Abstract

La maggior parte dei metodi di multimodalità esistenti utilizzano backbones separati per la generazione di testo discreto basata sull'autoregressione e la generazione visiva continua basata sulla diffusione, o lo stesso backbone mediante la discretizzazione dei dati visivi per utilizzare l'autoregressione sia per il testo che per la generazione visiva. In questo articolo, proponiamo di studiare un'idea semplice: condividere un transformer sia per l'autoregressione che per la diffusione. La fattibilità deriva da due aspetti principali: (i) il Transformer è applicato con successo alla diffusione per la generazione visiva, e (ii) l'addestramento del transformer per l'autoregressione e la diffusione è molto simile, e la differenza risiede semplicemente nel fatto che la diffusione utilizza una maschera di attenzione bidirezionale e l'autoregressione utilizza una maschera di attenzione causale. I risultati sperimentali mostrano che il nostro approccio raggiunge prestazioni di generazione di immagini comparabili ai metodi attuali all'avanguardia e mantiene la capacità di generazione di testo. Il progetto è pubblicamente disponibile su https://monoformer.github.io/.
English
Most existing multimodality methods use separate backbones for autoregression-based discrete text generation and diffusion-based continuous visual generation, or the same backbone by discretizing the visual data to use autoregression for both text and visual generation. In this paper, we propose to study a simple idea: share one transformer for both autoregression and diffusion. The feasibility comes from two main aspects: (i) Transformer is successfully applied to diffusion for visual generation, and (ii) transformer training for autoregression and diffusion is very similar, and the difference merely lies in that diffusion uses bidirectional attention mask and autoregression uses causal attention mask. Experimental results show that our approach achieves comparable image generation performance to current state-of-the-art methods as well as maintains the text generation capability. The project is publicly available at https://monoformer.github.io/.

Summary

AI-Generated Summary

PDF184November 16, 2024