ChatPaper.aiChatPaper

MonoFormer: 拡散と自己回帰の両方に対応する1つのTransformer

MonoFormer: One Transformer for Both Diffusion and Autoregression

September 24, 2024
著者: Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, Jingdong Wang
cs.AI

要旨

ほとんどの既存のマルチモダリティ手法は、自己回帰型の離散テキスト生成と拡散型の連続ビジュアル生成のために別々のバックボーンを使用するか、同じバックボーンを使用してビジュアルデータを離散化してテキストとビジュアルの両方の生成のために自己回帰を使用します。本論文では、自己回帰と拡散の両方に1つのトランスフォーマーを共有するという単純なアイデアを研究することを提案します。その実現可能性は、(i) トランスフォーマーがビジュアル生成のために拡散に成功裏に適用されていること、および(ii) 自己回帰と拡散のためのトランスフォーマーのトレーニングが非常に類似しており、違いは拡散が双方向の注意マスクを使用し、自己回帰が因果的な注意マスクを使用する点にあることから来ています。実験結果は、当該手法が最先端の手法と同等の画像生成性能を達成し、テキスト生成能力を維持していることを示しています。このプロジェクトは https://monoformer.github.io/ で公開されています。
English
Most existing multimodality methods use separate backbones for autoregression-based discrete text generation and diffusion-based continuous visual generation, or the same backbone by discretizing the visual data to use autoregression for both text and visual generation. In this paper, we propose to study a simple idea: share one transformer for both autoregression and diffusion. The feasibility comes from two main aspects: (i) Transformer is successfully applied to diffusion for visual generation, and (ii) transformer training for autoregression and diffusion is very similar, and the difference merely lies in that diffusion uses bidirectional attention mask and autoregression uses causal attention mask. Experimental results show that our approach achieves comparable image generation performance to current state-of-the-art methods as well as maintains the text generation capability. The project is publicly available at https://monoformer.github.io/.

Summary

AI-Generated Summary

PDF184November 16, 2024