Tora2: マルチエンティティ動画生成のためのモーションと外観をカスタマイズした拡散トランスフォーマー
Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation
July 8, 2025
著者: Zhenghao Zhang, Junchao Liao, Xiangyu Meng, Long Qin, Weizhi Wang
cs.AI
要旨
モーションガイド付き動画生成のための拡散トランスフォーマーモデルの最近の進歩、特にToraは、大きな進展を示してきました。本論文では、Toraの強化版であるTora2を紹介します。Tora2は、外観とモーションのカスタマイズ能力を拡張するためのいくつかの設計改善を導入しています。具体的には、複数のオープンセットエンティティに対する包括的なパーソナライゼーション埋め込みを生成する分離型パーソナライゼーション抽出器を導入し、従来の方法と比較して細かい視覚的詳細をより良く保持します。これを基に、各エンティティの軌跡、テキスト記述、視覚情報を統合するためのゲート付き自己注意機構を設計しました。この革新により、トレーニング中のマルチモーダル条件付けの不整合が大幅に減少します。さらに、モーションとパーソナライゼーション埋め込みの間の明示的なマッピングを通じて、軌跡のダイナミクスとエンティティの一貫性を共同で最適化するコントラスト損失を導入します。Tora2は、私たちの知る限り、動画生成における外観とモーションの同時多エンティティカスタマイズを実現する最初の方法です。実験結果は、Tora2が最先端のカスタマイズ手法と競争力のある性能を達成しつつ、高度なモーション制御機能を提供することを示しており、多条件動画生成における重要な進展を示しています。プロジェクトページ: https://github.com/alibaba/Tora
English
Recent advances in diffusion transformer models for motion-guided video
generation, such as Tora, have shown significant progress. In this paper, we
present Tora2, an enhanced version of Tora, which introduces several design
improvements to expand its capabilities in both appearance and motion
customization. Specifically, we introduce a decoupled personalization extractor
that generates comprehensive personalization embeddings for multiple open-set
entities, better preserving fine-grained visual details compared to previous
methods. Building on this, we design a gated self-attention mechanism to
integrate trajectory, textual description, and visual information for each
entity. This innovation significantly reduces misalignment in multimodal
conditioning during training. Moreover, we introduce a contrastive loss that
jointly optimizes trajectory dynamics and entity consistency through explicit
mapping between motion and personalization embeddings. Tora2 is, to our best
knowledge, the first method to achieve simultaneous multi-entity customization
of appearance and motion for video generation. Experimental results demonstrate
that Tora2 achieves competitive performance with state-of-the-art customization
methods while providing advanced motion control capabilities, which marks a
critical advancement in multi-condition video generation. Project page:
https://github.com/alibaba/Tora .