GS-DiT: Развитие генерации видео с псевдо 4D гауссовыми полями через эффективное плотное трехмерное отслеживание точек.
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking
January 5, 2025
Авторы: Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li
cs.AI
Аннотация
Управление видео в 4D является неотъемлемым элементом в генерации видео, поскольку оно позволяет использовать сложные техники объективов, такие как съемка с нескольких камер и эффект долли-зум, которые в настоящее время не поддерживаются существующими методами. Обучение трансформера диффузии видео (DiT) напрямую для управления 4D контентом требует дорогостоящих видео с множественными видами. Вдохновленные методом монокулярного динамического синтеза нового вида (MDVS), который оптимизирует 4D представление и визуализирует видео в соответствии с различными 4D элементами, такими как поза камеры и редактирование движения объекта, мы вводим псевдо 4D гауссовы поля в генерацию видео. Конкретно, мы предлагаем новую структуру, которая создает псевдо 4D гауссово поле с плотным трекингом 3D точек и визуализирует гауссово поле для всех кадров видео. Затем мы дообучаем предварительно обученный DiT для генерации видео в соответствии с руководством визуализированного видео, названного GS-DiT. Для улучшения обучения GS-DiT мы также предлагаем эффективный метод плотного трекинга 3D точек (D3D-PT) для создания псевдо 4D гауссового поля. Наш D3D-PT превосходит SpatialTracker, передовой метод разреженного трекинга 3D точек, по точности и ускоряет скорость вывода на два порядка. Во время этапа вывода GS-DiT может генерировать видео с тем же динамическим контентом, соблюдая различные параметры камеры, что решает значительное ограничение текущих моделей генерации видео. GS-DiT демонстрирует сильные обобщающие способности и расширяет возможности управления 4D гауссовым сплэттингом в генерации видео за пределы просто поз камеры. Он поддерживает продвинутые кинематографические эффекты через манипуляции гауссовым полем и внутренностями камеры, что делает его мощным инструментом для творческого производства видео. Демонстрации доступны по ссылке https://wkbian.github.io/Projects/GS-DiT/.
English
4D video control is essential in video generation as it enables the use of
sophisticated lens techniques, such as multi-camera shooting and dolly zoom,
which are currently unsupported by existing methods. Training a video Diffusion
Transformer (DiT) directly to control 4D content requires expensive multi-view
videos. Inspired by Monocular Dynamic novel View Synthesis (MDVS) that
optimizes a 4D representation and renders videos according to different 4D
elements, such as camera pose and object motion editing, we bring pseudo 4D
Gaussian fields to video generation. Specifically, we propose a novel framework
that constructs a pseudo 4D Gaussian field with dense 3D point tracking and
renders the Gaussian field for all video frames. Then we finetune a pretrained
DiT to generate videos following the guidance of the rendered video, dubbed as
GS-DiT. To boost the training of the GS-DiT, we also propose an efficient Dense
3D Point Tracking (D3D-PT) method for the pseudo 4D Gaussian field
construction. Our D3D-PT outperforms SpatialTracker, the state-of-the-art
sparse 3D point tracking method, in accuracy and accelerates the inference
speed by two orders of magnitude. During the inference stage, GS-DiT can
generate videos with the same dynamic content while adhering to different
camera parameters, addressing a significant limitation of current video
generation models. GS-DiT demonstrates strong generalization capabilities and
extends the 4D controllability of Gaussian splatting to video generation beyond
just camera poses. It supports advanced cinematic effects through the
manipulation of the Gaussian field and camera intrinsics, making it a powerful
tool for creative video production. Demos are available at
https://wkbian.github.io/Projects/GS-DiT/.Summary
AI-Generated Summary