ChatPaper.aiChatPaper

3DTrajMaster: Het beheersen van 3D-trajectorieën voor beweging van meerdere entiteiten in video-generatie

3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

December 10, 2024
Auteurs: Xiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI

Samenvatting

Deze paper heeft als doel om multi-entity 3D-bewegingen te manipuleren in videogeneratie. Vorige methoden voor controleerbare videogeneratie maken voornamelijk gebruik van 2D-besturingssignalen om objectbewegingen te manipuleren en hebben opmerkelijke syntheseresultaten behaald. Echter, 2D-besturingssignalen zijn inherent beperkt in het uitdrukken van de 3D-aard van objectbewegingen. Om dit probleem te overwinnen, introduceren we 3DTrajMaster, een robuuste controller die multi-entity dynamica in 3D-ruimte reguleert, gegeven door de gebruiker gewenste 6DoF-houding (locatie en rotatie) sequenties van entiteiten. In de kern van onze aanpak bevindt zich een plug-and-play 3D-bewegingsgebaseerde objectinjector die meerdere invoerentiteiten samenvoegt met hun respectievelijke 3D-trajecten door middel van een poortgestuurde zelfaandachtsmechanisme. Bovendien benutten we een injectorarchitectuur om de videodiffusie vooraf te behouden, wat cruciaal is voor de generalisatiecapaciteit. Om de degradatie van videokwaliteit te verminderen, introduceren we een domeinadapter tijdens training en gebruiken we een aangepaste bemonsteringsstrategie tijdens inferentie. Om het gebrek aan geschikte trainingsgegevens aan te pakken, construeren we een 360-Motion Dataset, die eerst verzamelde 3D-menselijke en dierlijke assets correleert met door GPT gegenereerde trajecten en vervolgens hun beweging vastlegt met 12 gelijkmatig omringende camera's op diverse 3D UE-platforms. Uitgebreide experimenten tonen aan dat 3DTrajMaster een nieuwe state-of-the-art neerzet op zowel nauwkeurigheid als generalisatie voor het regelen van multi-entity 3D-bewegingen. Projectpagina: http://fuxiao0719.github.io/projects/3dtrajmaster
English
This paper aims to manipulate multi-entity 3D motions in video generation. Previous methods on controllable video generation primarily leverage 2D control signals to manipulate object motions and have achieved remarkable synthesis results. However, 2D control signals are inherently limited in expressing the 3D nature of object motions. To overcome this problem, we introduce 3DTrajMaster, a robust controller that regulates multi-entity dynamics in 3D space, given user-desired 6DoF pose (location and rotation) sequences of entities. At the core of our approach is a plug-and-play 3D-motion grounded object injector that fuses multiple input entities with their respective 3D trajectories through a gated self-attention mechanism. In addition, we exploit an injector architecture to preserve the video diffusion prior, which is crucial for generalization ability. To mitigate video quality degradation, we introduce a domain adaptor during training and employ an annealed sampling strategy during inference. To address the lack of suitable training data, we construct a 360-Motion Dataset, which first correlates collected 3D human and animal assets with GPT-generated trajectory and then captures their motion with 12 evenly-surround cameras on diverse 3D UE platforms. Extensive experiments show that 3DTrajMaster sets a new state-of-the-art in both accuracy and generalization for controlling multi-entity 3D motions. Project page: http://fuxiao0719.github.io/projects/3dtrajmaster
PDF182December 11, 2024