MonoFormer: Un Transformer para Tanto Difusión como Autoregresión
MonoFormer: One Transformer for Both Diffusion and Autoregression
September 24, 2024
Autores: Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, Jingdong Wang
cs.AI
Resumen
La mayoría de los métodos de multimodalidad existentes utilizan espinazos separados para la generación de texto discreto basada en autorregresión y la generación visual continua basada en difusión, o el mismo espinazo al discretizar los datos visuales para utilizar la autorregresión tanto para el texto como para la generación visual. En este documento, proponemos estudiar una idea simple: compartir un transformador para tanto la autorregresión como la difusión. La viabilidad se deriva de dos aspectos principales: (i) el Transformador se aplica con éxito a la difusión para la generación visual, y (ii) el entrenamiento del transformador para la autorregresión y la difusión es muy similar, y la diferencia radica únicamente en que la difusión utiliza una máscara de atención bidireccional y la autorregresión utiliza una máscara de atención causal. Los resultados experimentales muestran que nuestro enfoque logra un rendimiento de generación de imágenes comparable a los métodos actuales más avanzados, así como mantiene la capacidad de generación de texto. El proyecto está disponible públicamente en https://monoformer.github.io/.
English
Most existing multimodality methods use separate backbones for
autoregression-based discrete text generation and diffusion-based continuous
visual generation, or the same backbone by discretizing the visual data to use
autoregression for both text and visual generation. In this paper, we propose
to study a simple idea: share one transformer for both autoregression and
diffusion. The feasibility comes from two main aspects: (i) Transformer is
successfully applied to diffusion for visual generation, and (ii) transformer
training for autoregression and diffusion is very similar, and the difference
merely lies in that diffusion uses bidirectional attention mask and
autoregression uses causal attention mask. Experimental results show that our
approach achieves comparable image generation performance to current
state-of-the-art methods as well as maintains the text generation capability.
The project is publicly available at https://monoformer.github.io/.Summary
AI-Generated Summary