OmniFlow: マルチモーダル補正フローを用いたエニーツーエニージェネレーション
OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows
December 2, 2024
著者: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Zichun Liao, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI
要旨
OmniFlowは、テキストから画像、テキストから音声、音声から画像など、任意の入出力タスク向けに設計された革新的な生成モデルです。OmniFlowは、テキストから画像へのモデルで使用されている修正フロー(RF)フレームワークを発展させ、複数のモダリティの同時分布を処理します。これにより、従来の任意の入出力モデルよりもテキストから画像やテキストから音声の合成など、幅広いタスクで優れた性能を発揮します。本研究の主な貢献は次の3つです。まず、RFをマルチモーダル設定に拡張し、異なるモダリティ間の生成された出力の整合性を柔軟に制御できる新しいガイダンスメカニズムを導入します。第二に、Stable Diffusion 3のテキストから画像のMMDiTアーキテクチャを拡張し、音声とテキストの生成を可能にする新しいアーキテクチャを提案します。拡張モジュールは効率的に個別に事前学習され、バニラのテキストから画像のMMDiTとマージして微調整できます。最後に、大規模な音声とテキスト生成向けの修正フロー変換器の設計選択に関する包括的な研究を行い、さまざまなモダリティ間でのパフォーマンス最適化に関する貴重な知見を提供します。コードはhttps://github.com/jacklishufan/OmniFlowsで入手可能です。
English
We introduce OmniFlow, a novel generative model designed for any-to-any
generation tasks such as text-to-image, text-to-audio, and audio-to-image
synthesis. OmniFlow advances the rectified flow (RF) framework used in
text-to-image models to handle the joint distribution of multiple modalities.
It outperforms previous any-to-any models on a wide range of tasks, such as
text-to-image and text-to-audio synthesis. Our work offers three key
contributions: First, we extend RF to a multi-modal setting and introduce a
novel guidance mechanism, enabling users to flexibly control the alignment
between different modalities in the generated outputs. Second, we propose a
novel architecture that extends the text-to-image MMDiT architecture of Stable
Diffusion 3 and enables audio and text generation. The extended modules can be
efficiently pretrained individually and merged with the vanilla text-to-image
MMDiT for fine-tuning. Lastly, we conduct a comprehensive study on the design
choices of rectified flow transformers for large-scale audio and text
generation, providing valuable insights into optimizing performance across
diverse modalities. The Code will be available at
https://github.com/jacklishufan/OmniFlows.Summary
AI-Generated Summary