Tora2: マルチエンティティ動画生成のためのモーションと外観をカスタマイズした拡散トランスフォーマー

要旨

モーションガイド付き動画生成のための拡散トランスフォーマーモデルの最近の進歩、特にToraは、大きな進展を示してきました。本論文では、Toraの強化版であるTora2を紹介します。Tora2は、外観とモーションのカスタマイズ能力を拡張するためのいくつかの設計改善を導入しています。具体的には、複数のオープンセットエンティティに対する包括的なパーソナライゼーション埋め込みを生成する分離型パーソナライゼーション抽出器を導入し、従来の方法と比較して細かい視覚的詳細をより良く保持します。これを基に、各エンティティの軌跡、テキスト記述、視覚情報を統合するためのゲート付き自己注意機構を設計しました。この革新により、トレーニング中のマルチモーダル条件付けの不整合が大幅に減少します。さらに、モーションとパーソナライゼーション埋め込みの間の明示的なマッピングを通じて、軌跡のダイナミクスとエンティティの一貫性を共同で最適化するコントラスト損失を導入します。Tora2は、私たちの知る限り、動画生成における外観とモーションの同時多エンティティカスタマイズを実現する最初の方法です。実験結果は、Tora2が最先端のカスタマイズ手法と競争力のある性能を達成しつつ、高度なモーション制御機能を提供することを示しており、多条件動画生成における重要な進展を示しています。プロジェクトページ: https://github.com/alibaba/Tora

English

Recent advances in diffusion transformer models for motion-guided video generation, such as Tora, have shown significant progress. In this paper, we present Tora2, an enhanced version of Tora, which introduces several design improvements to expand its capabilities in both appearance and motion customization. Specifically, we introduce a decoupled personalization extractor that generates comprehensive personalization embeddings for multiple open-set entities, better preserving fine-grained visual details compared to previous methods. Building on this, we design a gated self-attention mechanism to integrate trajectory, textual description, and visual information for each entity. This innovation significantly reduces misalignment in multimodal conditioning during training. Moreover, we introduce a contrastive loss that jointly optimizes trajectory dynamics and entity consistency through explicit mapping between motion and personalization embeddings. Tora2 is, to our best knowledge, the first method to achieve simultaneous multi-entity customization of appearance and motion for video generation. Experimental results demonstrate that Tora2 achieves competitive performance with state-of-the-art customization methods while providing advanced motion control capabilities, which marks a critical advancement in multi-condition video generation. Project page: https://github.com/alibaba/Tora .

Tora2: マルチエンティティ動画生成のためのモーションと外観をカスタマイズした拡散トランスフォーマー

Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation

要旨

Support