LaTtE-Flow: 層別タイムステップ専門家フローベーストランスフォーマー
LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer
June 8, 2025
著者: Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang
cs.AI
要旨
近年、画像理解と生成を統合するマルチモーダル基盤モデルの進展により、単一フレームワーク内で幅広い視覚言語タスクに取り組むための新たな可能性が開かれている。しかし、既存の統合モデルは通常、大規模な事前学習を必要とし、各タスク専用のモデルと同等の性能を達成するのに苦労している。さらに、これらのモデルの多くは画像生成速度が遅く、リアルタイムやリソースが制限された環境での実用的な展開が制限されている。本研究では、画像理解と生成を単一のマルチモーダルモデル内で統合する、新規で効率的なアーキテクチャであるLayerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow)を提案する。LaTtE-Flowは、強力な事前学習済み視覚言語モデル(VLM)を基盤として、強力なマルチモーダル理解能力を継承し、効率的な画像生成のための新規のLayerwise Timestep Expertsフローベースアーキテクチャを拡張する。LaTtE-Flowは、フローマッチングプロセスをTransformer層の専門グループに分散させ、各グループが異なるタイムステップのサブセットを担当する。この設計により、各サンプリングタイムステップでごく一部の層のみを活性化することで、サンプリング効率が大幅に向上する。さらに、層間での効率的な情報再利用のためのTimestep-Conditioned Residual Attentionメカニズムを提案し、性能をさらに向上させる。実験結果は、LaTtE-Flowがマルチモーダル理解タスクで強力な性能を達成し、最近の統合マルチモーダルモデルと比較して約6倍の高速な推論速度で競争力のある画像生成品質を実現することを示している。
English
Recent advances in multimodal foundation models unifying image understanding
and generation have opened exciting avenues for tackling a wide range of
vision-language tasks within a single framework. Despite progress, existing
unified models typically require extensive pretraining and struggle to achieve
the same level of performance compared to models dedicated to each task.
Additionally, many of these models suffer from slow image generation speeds,
limiting their practical deployment in real-time or resource-constrained
settings. In this work, we propose Layerwise Timestep-Expert Flow-based
Transformer (LaTtE-Flow), a novel and efficient architecture that unifies image
understanding and generation within a single multimodal model. LaTtE-Flow
builds upon powerful pretrained Vision-Language Models (VLMs) to inherit strong
multimodal understanding capabilities, and extends them with a novel Layerwise
Timestep Experts flow-based architecture for efficient image generation.
LaTtE-Flow distributes the flow-matching process across specialized groups of
Transformer layers, each responsible for a distinct subset of timesteps. This
design significantly improves sampling efficiency by activating only a small
subset of layers at each sampling timestep. To further enhance performance, we
propose a Timestep-Conditioned Residual Attention mechanism for efficient
information reuse across layers. Experiments demonstrate that LaTtE-Flow
achieves strong performance on multimodal understanding tasks, while achieving
competitive image generation quality with around 6x faster inference speed
compared to recent unified multimodal models.