ChatPaper.aiChatPaper

3DTrajMaster : Maîtrise des trajectoires 3D pour le mouvement multi-entités dans la génération de vidéos

3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

December 10, 2024
Auteurs: Xiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI

Résumé

Ce document vise à manipuler les mouvements 3D multi-entités dans la génération de vidéos. Les méthodes précédentes de génération de vidéos contrôlables exploitent principalement des signaux de contrôle 2D pour manipuler les mouvements des objets et ont obtenu des résultats de synthèse remarquables. Cependant, les signaux de contrôle 2D sont intrinsèquement limités pour exprimer la nature 3D des mouvements des objets. Pour surmonter ce problème, nous introduisons 3DTrajMaster, un contrôleur robuste qui régule la dynamique multi-entités dans l'espace 3D, en fonction des séquences de pose 6DoF (emplacement et rotation) désirées par l'utilisateur des entités. Au cœur de notre approche se trouve un injecteur d'objets ancré dans les mouvements 3D, qui fusionne plusieurs entités d'entrée avec leurs trajectoires 3D respectives grâce à un mécanisme d'auto-attention à portes. De plus, nous exploitons une architecture d'injecteur pour préserver la diffusion vidéo antérieure, ce qui est crucial pour la capacité de généralisation. Pour atténuer la dégradation de la qualité vidéo, nous introduisons un adaptateur de domaine lors de l'entraînement et utilisons une stratégie d'échantillonnage progressif lors de l'inférence. Pour pallier le manque de données d'entraînement adaptées, nous construisons un ensemble de données 360-Motion, qui relie d'abord des actifs humains et animaux 3D collectés à des trajectoires générées par GPT, puis capture leurs mouvements avec 12 caméras entourant uniformément sur diverses plateformes UE 3D. Des expériences approfondies montrent que 3DTrajMaster établit un nouvel état de l'art à la fois en termes de précision et de généralisation pour le contrôle des mouvements 3D multi-entités. Page du projet : http://fuxiao0719.github.io/projects/3dtrajmaster
English
This paper aims to manipulate multi-entity 3D motions in video generation. Previous methods on controllable video generation primarily leverage 2D control signals to manipulate object motions and have achieved remarkable synthesis results. However, 2D control signals are inherently limited in expressing the 3D nature of object motions. To overcome this problem, we introduce 3DTrajMaster, a robust controller that regulates multi-entity dynamics in 3D space, given user-desired 6DoF pose (location and rotation) sequences of entities. At the core of our approach is a plug-and-play 3D-motion grounded object injector that fuses multiple input entities with their respective 3D trajectories through a gated self-attention mechanism. In addition, we exploit an injector architecture to preserve the video diffusion prior, which is crucial for generalization ability. To mitigate video quality degradation, we introduce a domain adaptor during training and employ an annealed sampling strategy during inference. To address the lack of suitable training data, we construct a 360-Motion Dataset, which first correlates collected 3D human and animal assets with GPT-generated trajectory and then captures their motion with 12 evenly-surround cameras on diverse 3D UE platforms. Extensive experiments show that 3DTrajMaster sets a new state-of-the-art in both accuracy and generalization for controlling multi-entity 3D motions. Project page: http://fuxiao0719.github.io/projects/3dtrajmaster

Summary

AI-Generated Summary

PDF182December 11, 2024