ChatPaper.aiChatPaper

3DTrajMaster: Dominio de Trayectorias 3D para el Movimiento Multi-Entidad en la Generación de Video

3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

December 10, 2024
Autores: Xiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI

Resumen

Este documento tiene como objetivo manipular movimientos 3D de múltiples entidades en la generación de videos. Los métodos previos en generación de videos controlables principalmente aprovechan señales de control 2D para manipular los movimientos de objetos y han logrado resultados de síntesis notables. Sin embargo, las señales de control 2D son inherentemente limitadas en la expresión de la naturaleza 3D de los movimientos de objetos. Para superar este problema, presentamos 3DTrajMaster, un controlador robusto que regula la dinámica de múltiples entidades en el espacio 3D, dadas secuencias de pose de 6 grados de libertad (ubicación y rotación) deseadas por el usuario. En el núcleo de nuestro enfoque se encuentra un inyector de objetos fundamentado en movimientos 3D que fusiona múltiples entidades de entrada con sus respectivas trayectorias 3D a través de un mecanismo de autoatención con compuertas. Además, explotamos una arquitectura de inyector para preservar la difusión previa del video, lo cual es crucial para la capacidad de generalización. Para mitigar la degradación de la calidad del video, introducimos un adaptador de dominio durante el entrenamiento y empleamos una estrategia de muestreo templado durante la inferencia. Para abordar la falta de datos de entrenamiento adecuados, construimos un Conjunto de Datos de Movimiento 360, que primero correlaciona activos 3D humanos y animales recopilados con trayectorias generadas por GPT y luego captura su movimiento con 12 cámaras equidistantes en diversas plataformas 3D UE. Experimentos extensos muestran que 3DTrajMaster establece un nuevo estado del arte tanto en precisión como en generalización para controlar movimientos 3D de múltiples entidades. Página del proyecto: http://fuxiao0719.github.io/projects/3dtrajmaster
English
This paper aims to manipulate multi-entity 3D motions in video generation. Previous methods on controllable video generation primarily leverage 2D control signals to manipulate object motions and have achieved remarkable synthesis results. However, 2D control signals are inherently limited in expressing the 3D nature of object motions. To overcome this problem, we introduce 3DTrajMaster, a robust controller that regulates multi-entity dynamics in 3D space, given user-desired 6DoF pose (location and rotation) sequences of entities. At the core of our approach is a plug-and-play 3D-motion grounded object injector that fuses multiple input entities with their respective 3D trajectories through a gated self-attention mechanism. In addition, we exploit an injector architecture to preserve the video diffusion prior, which is crucial for generalization ability. To mitigate video quality degradation, we introduce a domain adaptor during training and employ an annealed sampling strategy during inference. To address the lack of suitable training data, we construct a 360-Motion Dataset, which first correlates collected 3D human and animal assets with GPT-generated trajectory and then captures their motion with 12 evenly-surround cameras on diverse 3D UE platforms. Extensive experiments show that 3DTrajMaster sets a new state-of-the-art in both accuracy and generalization for controlling multi-entity 3D motions. Project page: http://fuxiao0719.github.io/projects/3dtrajmaster

Summary

AI-Generated Summary

PDF182December 11, 2024