3DTrajMaster: Овладение 3D-траекторией для множественного движения объектов в видео-генерации
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation
December 10, 2024
Авторы: Xiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI
Аннотация
Данная статья направлена на управление многокомпонентными 3D движениями в генерации видео. Предыдущие методы контролируемой генерации видео в основном используют 2D сигналы управления для манипулирования движениями объектов и достигли замечательных результатов синтеза. Однако 2D сигналы управления имеют врожденные ограничения в выражении 3D характера движений объектов. Для преодоления этой проблемы мы представляем 3DTrajMaster, надежный контроллер, регулирующий динамику многокомпонентных объектов в 3D пространстве, учитывая желаемые пользователем последовательности 6DoF позы (положения и поворота) объектов. В основе нашего подхода лежит модульный инжектор объектов, основанный на 3D движении, который объединяет несколько входных объектов с их соответствующими 3D траекториями через механизм внимания само-внимания. Кроме того, мы используем архитектуру инжектора для сохранения предварительного распространения видео, что критично для обобщающей способности. Для смягчения деградации качества видео мы представляем доменный адаптер во время обучения и используем стратегию отжига во время вывода. Для решения проблемы отсутствия подходящих данных для обучения мы создаем набор данных 360-Motion, который сначала коррелирует собранные 3D человеческие и животные ресурсы с траекториями, сгенерированными GPT, а затем захватывает их движение с помощью 12 камер, равномерно распределенных на различных 3D платформах UE. Обширные эксперименты показывают, что 3DTrajMaster устанавливает новый уровень качества как в точности, так и в обобщении для управления многокомпонентными 3D движениями. Страница проекта: http://fuxiao0719.github.io/projects/3dtrajmaster
English
This paper aims to manipulate multi-entity 3D motions in video generation.
Previous methods on controllable video generation primarily leverage 2D control
signals to manipulate object motions and have achieved remarkable synthesis
results. However, 2D control signals are inherently limited in expressing the
3D nature of object motions. To overcome this problem, we introduce
3DTrajMaster, a robust controller that regulates multi-entity dynamics in 3D
space, given user-desired 6DoF pose (location and rotation) sequences of
entities. At the core of our approach is a plug-and-play 3D-motion grounded
object injector that fuses multiple input entities with their respective 3D
trajectories through a gated self-attention mechanism. In addition, we exploit
an injector architecture to preserve the video diffusion prior, which is
crucial for generalization ability. To mitigate video quality degradation, we
introduce a domain adaptor during training and employ an annealed sampling
strategy during inference. To address the lack of suitable training data, we
construct a 360-Motion Dataset, which first correlates collected 3D human and
animal assets with GPT-generated trajectory and then captures their motion with
12 evenly-surround cameras on diverse 3D UE platforms. Extensive experiments
show that 3DTrajMaster sets a new state-of-the-art in both accuracy and
generalization for controlling multi-entity 3D motions. Project page:
http://fuxiao0719.github.io/projects/3dtrajmasterSummary
AI-Generated Summary