3DTrajMaster: Dominando a Trajetória 3D para Movimento de Múltiplas Entidades em Geração de Vídeo
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation
December 10, 2024
Autores: Xiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI
Resumo
Este artigo tem como objetivo manipular movimentos 3D de múltiplas entidades na geração de vídeos. Métodos anteriores de geração de vídeo controlável geralmente utilizam sinais de controle 2D para manipular os movimentos dos objetos e alcançaram resultados de síntese notáveis. No entanto, os sinais de controle 2D são inerentemente limitados na expressão da natureza 3D dos movimentos dos objetos. Para superar esse problema, introduzimos o 3DTrajMaster, um controlador robusto que regula a dinâmica de múltiplas entidades no espaço 3D, considerando sequências de pose 6DoF (localização e rotação) desejadas pelo usuário para as entidades. No cerne de nossa abordagem está um injetor de objetos ancorado em movimento 3D que combina múltiplas entidades de entrada com suas respectivas trajetórias 3D por meio de um mecanismo de autoatenção com portões. Além disso, exploramos uma arquitetura de injetor para preservar a prior difusão de vídeo, o que é crucial para a capacidade de generalização. Para mitigar a degradação da qualidade do vídeo, introduzimos um adaptador de domínio durante o treinamento e empregamos uma estratégia de amostragem anelada durante a inferência. Para lidar com a falta de dados de treinamento adequados, construímos um Conjunto de Dados de Movimento 360, que correlaciona inicialmente ativos 3D humanos e animais coletados com trajetórias geradas pelo GPT e depois captura seus movimentos com 12 câmeras uniformemente distribuídas em diversas plataformas 3D UE. Experimentos extensivos mostram que o 3DTrajMaster estabelece um novo estado da arte tanto em precisão quanto em generalização para controlar movimentos 3D de múltiplas entidades. Página do projeto: http://fuxiao0719.github.io/projects/3dtrajmaster
English
This paper aims to manipulate multi-entity 3D motions in video generation.
Previous methods on controllable video generation primarily leverage 2D control
signals to manipulate object motions and have achieved remarkable synthesis
results. However, 2D control signals are inherently limited in expressing the
3D nature of object motions. To overcome this problem, we introduce
3DTrajMaster, a robust controller that regulates multi-entity dynamics in 3D
space, given user-desired 6DoF pose (location and rotation) sequences of
entities. At the core of our approach is a plug-and-play 3D-motion grounded
object injector that fuses multiple input entities with their respective 3D
trajectories through a gated self-attention mechanism. In addition, we exploit
an injector architecture to preserve the video diffusion prior, which is
crucial for generalization ability. To mitigate video quality degradation, we
introduce a domain adaptor during training and employ an annealed sampling
strategy during inference. To address the lack of suitable training data, we
construct a 360-Motion Dataset, which first correlates collected 3D human and
animal assets with GPT-generated trajectory and then captures their motion with
12 evenly-surround cameras on diverse 3D UE platforms. Extensive experiments
show that 3DTrajMaster sets a new state-of-the-art in both accuracy and
generalization for controlling multi-entity 3D motions. Project page:
http://fuxiao0719.github.io/projects/3dtrajmasterSummary
AI-Generated Summary