ChatPaper.aiChatPaper

MonoFormer: Un Transformer para Tanto Difusión como Autoregresión

MonoFormer: One Transformer for Both Diffusion and Autoregression

September 24, 2024
Autores: Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, Jingdong Wang
cs.AI

Resumen

La mayoría de los métodos de multimodalidad existentes utilizan espinazos separados para la generación de texto discreto basada en autorregresión y la generación visual continua basada en difusión, o el mismo espinazo al discretizar los datos visuales para utilizar la autorregresión tanto para el texto como para la generación visual. En este documento, proponemos estudiar una idea simple: compartir un transformador para tanto la autorregresión como la difusión. La viabilidad se deriva de dos aspectos principales: (i) el Transformador se aplica con éxito a la difusión para la generación visual, y (ii) el entrenamiento del transformador para la autorregresión y la difusión es muy similar, y la diferencia radica únicamente en que la difusión utiliza una máscara de atención bidireccional y la autorregresión utiliza una máscara de atención causal. Los resultados experimentales muestran que nuestro enfoque logra un rendimiento de generación de imágenes comparable a los métodos actuales más avanzados, así como mantiene la capacidad de generación de texto. El proyecto está disponible públicamente en https://monoformer.github.io/.
English
Most existing multimodality methods use separate backbones for autoregression-based discrete text generation and diffusion-based continuous visual generation, or the same backbone by discretizing the visual data to use autoregression for both text and visual generation. In this paper, we propose to study a simple idea: share one transformer for both autoregression and diffusion. The feasibility comes from two main aspects: (i) Transformer is successfully applied to diffusion for visual generation, and (ii) transformer training for autoregression and diffusion is very similar, and the difference merely lies in that diffusion uses bidirectional attention mask and autoregression uses causal attention mask. Experimental results show that our approach achieves comparable image generation performance to current state-of-the-art methods as well as maintains the text generation capability. The project is publicly available at https://monoformer.github.io/.

Summary

AI-Generated Summary

PDF184November 16, 2024