MonoFormer: 拡散と自己回帰の両方に対応する1つのTransformer
MonoFormer: One Transformer for Both Diffusion and Autoregression
September 24, 2024
著者: Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, Jingdong Wang
cs.AI
要旨
ほとんどの既存のマルチモダリティ手法は、自己回帰型の離散テキスト生成と拡散型の連続ビジュアル生成のために別々のバックボーンを使用するか、同じバックボーンを使用してビジュアルデータを離散化してテキストとビジュアルの両方の生成のために自己回帰を使用します。本論文では、自己回帰と拡散の両方に1つのトランスフォーマーを共有するという単純なアイデアを研究することを提案します。その実現可能性は、(i) トランスフォーマーがビジュアル生成のために拡散に成功裏に適用されていること、および(ii) 自己回帰と拡散のためのトランスフォーマーのトレーニングが非常に類似しており、違いは拡散が双方向の注意マスクを使用し、自己回帰が因果的な注意マスクを使用する点にあることから来ています。実験結果は、当該手法が最先端の手法と同等の画像生成性能を達成し、テキスト生成能力を維持していることを示しています。このプロジェクトは https://monoformer.github.io/ で公開されています。
English
Most existing multimodality methods use separate backbones for
autoregression-based discrete text generation and diffusion-based continuous
visual generation, or the same backbone by discretizing the visual data to use
autoregression for both text and visual generation. In this paper, we propose
to study a simple idea: share one transformer for both autoregression and
diffusion. The feasibility comes from two main aspects: (i) Transformer is
successfully applied to diffusion for visual generation, and (ii) transformer
training for autoregression and diffusion is very similar, and the difference
merely lies in that diffusion uses bidirectional attention mask and
autoregression uses causal attention mask. Experimental results show that our
approach achieves comparable image generation performance to current
state-of-the-art methods as well as maintains the text generation capability.
The project is publicly available at https://monoformer.github.io/.Summary
AI-Generated Summary