ChatPaper.aiChatPaper

3DTrajMaster: ビデオ内の複数エンティティの運動のための3D軌跡のマスタリング

3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

December 10, 2024
著者: Xiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI

要旨

本論文の目的は、ビデオ生成における複数エンティティの3Dモーションを操作することです。 従来の制御可能なビデオ生成手法は、主に2D制御信号を利用してオブジェクトのモーションを操作し、顕著な合成結果を達成してきました。 ただし、2D制御信号はオブジェクトのモーションの3D性質を表現するのに本質的に限界があります。 この問題を克服するために、我々は3DTrajMasterを導入します。これは、ユーザーが望むエンティティの6DoFポーズ(位置と回転)シーケンスを与えられたときに、3D空間で複数エンティティのダイナミクスを調整する堅牢なコントローラです。 我々の手法の中核には、複数の入力エンティティとそれぞれの3D軌跡をゲート付き自己注意メカニズムを介して融合する3Dモーションに基づくオブジェクトインジェクタがあります。 さらに、一般化能力に重要なビデオ拡散事前情報を保存するために、インジェクタアーキテクチャを活用しています。 ビデオ品質の低下を緩和するために、トレーニング中にドメインアダプタを導入し、推論中にアニールドサンプリング戦略を採用しています。 適切なトレーニングデータの不足に対処するために、360-Motion Datasetを構築しています。これは、まず収集された3D人間および動物アセットをGPTに生成された軌跡と関連付け、その後、多様な3D UEプラットフォーム上の12個の均等に配置されたカメラでその動きを捉えます。 幅広い実験結果は、3DTrajMasterが複数エンティティの3Dモーションを制御するための精度と一般化能力の両方で新たな最先端を確立していることを示しています。プロジェクトページ:http://fuxiao0719.github.io/projects/3dtrajmaster
English
This paper aims to manipulate multi-entity 3D motions in video generation. Previous methods on controllable video generation primarily leverage 2D control signals to manipulate object motions and have achieved remarkable synthesis results. However, 2D control signals are inherently limited in expressing the 3D nature of object motions. To overcome this problem, we introduce 3DTrajMaster, a robust controller that regulates multi-entity dynamics in 3D space, given user-desired 6DoF pose (location and rotation) sequences of entities. At the core of our approach is a plug-and-play 3D-motion grounded object injector that fuses multiple input entities with their respective 3D trajectories through a gated self-attention mechanism. In addition, we exploit an injector architecture to preserve the video diffusion prior, which is crucial for generalization ability. To mitigate video quality degradation, we introduce a domain adaptor during training and employ an annealed sampling strategy during inference. To address the lack of suitable training data, we construct a 360-Motion Dataset, which first correlates collected 3D human and animal assets with GPT-generated trajectory and then captures their motion with 12 evenly-surround cameras on diverse 3D UE platforms. Extensive experiments show that 3DTrajMaster sets a new state-of-the-art in both accuracy and generalization for controlling multi-entity 3D motions. Project page: http://fuxiao0719.github.io/projects/3dtrajmaster
PDF182December 11, 2024