ChatPaper.aiChatPaper

3DTrajMaster: Beherrschung von 3D-Trajektorien für die Bewegung mehrerer Entitäten in der Videogenerierung

3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

December 10, 2024
Autoren: Xiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI

Zusammenfassung

Dieses Papier zielt darauf ab, Multi-Entity 3D-Bewegungen in der Videogenerierung zu manipulieren. Frühere Methoden zur steuerbaren Videogenerierung nutzen hauptsächlich 2D-Steuerungssignale, um Objektbewegungen zu manipulieren und haben bemerkenswerte Synthesenergebnisse erzielt. Allerdings sind 2D-Steuerungssignale von Natur aus begrenzt in der Darstellung der 3D-Natur von Objektbewegungen. Um dieses Problem zu überwinden, stellen wir 3DTrajMaster vor, einen robusten Controller, der die Dynamik von Multi-Entities im 3D-Raum reguliert, basierend auf vom Benutzer gewünschten 6DoF-Pose (Position und Rotation) Sequenzen von Entitäten. Im Kern unseres Ansatzes steht ein Plug-and-Play 3D-Bewegungs-gegründeter Objektinjektor, der mehrere Eingangs-Entitäten mit ihren jeweiligen 3D-Trajektorien durch einen gesteuerten Selbst-Aufmerksamkeitsmechanismus verschmilzt. Darüber hinaus nutzen wir eine Injektor-Architektur, um das Video-Diffusions-Prior zu erhalten, was für die Verallgemeinerungsfähigkeit entscheidend ist. Um die Degradation der Videoqualität zu mildern, führen wir während des Trainings einen Domänenadapter ein und verwenden während der Inferenz eine geglättete Abtaststrategie. Um dem Mangel an geeigneten Trainingsdaten entgegenzuwirken, konstruieren wir ein 360-Motion-Datenset, das zunächst gesammelte 3D-Mensch- und Tierressourcen mit GPT-generierten Trajektorien korreliert und dann ihre Bewegungen mit 12 gleichmäßig umgebenden Kameras auf verschiedenen 3D-UE-Plattformen erfasst. Umfangreiche Experimente zeigen, dass 3DTrajMaster einen neuen Stand der Technik sowohl in Genauigkeit als auch in der Verallgemeinerungsfähigkeit für die Steuerung von Multi-Entity 3D-Bewegungen setzt. Projektpage: http://fuxiao0719.github.io/projects/3dtrajmaster
English
This paper aims to manipulate multi-entity 3D motions in video generation. Previous methods on controllable video generation primarily leverage 2D control signals to manipulate object motions and have achieved remarkable synthesis results. However, 2D control signals are inherently limited in expressing the 3D nature of object motions. To overcome this problem, we introduce 3DTrajMaster, a robust controller that regulates multi-entity dynamics in 3D space, given user-desired 6DoF pose (location and rotation) sequences of entities. At the core of our approach is a plug-and-play 3D-motion grounded object injector that fuses multiple input entities with their respective 3D trajectories through a gated self-attention mechanism. In addition, we exploit an injector architecture to preserve the video diffusion prior, which is crucial for generalization ability. To mitigate video quality degradation, we introduce a domain adaptor during training and employ an annealed sampling strategy during inference. To address the lack of suitable training data, we construct a 360-Motion Dataset, which first correlates collected 3D human and animal assets with GPT-generated trajectory and then captures their motion with 12 evenly-surround cameras on diverse 3D UE platforms. Extensive experiments show that 3DTrajMaster sets a new state-of-the-art in both accuracy and generalization for controlling multi-entity 3D motions. Project page: http://fuxiao0719.github.io/projects/3dtrajmaster

Summary

AI-Generated Summary

PDF182December 11, 2024