VD3D: Подчинение крупных видео-диффузионных трансформеров для управления 3D-камерой.
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control
July 17, 2024
Авторы: Sherwin Bahmani, Ivan Skorokhodov, Aliaksandr Siarohin, Willi Menapace, Guocheng Qian, Michael Vasilkovsky, Hsin-Ying Lee, Chaoyang Wang, Jiaxu Zou, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov
cs.AI
Аннотация
Современные модели синтеза текста в видео демонстрируют последовательную, фотореалистичную генерацию сложных видеороликов по текстовому описанию. Однако большинство существующих моделей лишены детализированного контроля над движением камеры, что критично для последующих приложений, связанных с созданием контента, визуальными эффектами и 3D-видением. Недавно были представлены новые методы, демонстрирующие способность генерировать видеоролики с управляемыми позами камеры. Эти техники используют предварительно обученные модели диффузии на основе U-Net, которые явно разделяют пространственную и временную генерацию. Тем не менее, ни один из существующих подходов не обеспечивает управление камерой для новых моделей диффузии видео на основе трансформеров, которые обрабатывают пространственную и временную информацию совместно. Здесь мы предлагаем обуздать видео-трансформеры для управления 3D-камерой с использованием механизма условий, подобного ControlNet, который включает пространственные и временные вложения камеры на основе координат Плюккера. Подход демонстрирует передовые результаты в контролируемой генерации видео после донастройки на наборе данных RealEstate10K. На наш взгляд, наша работа первой обеспечивает управление камерой для моделей диффузии видео на основе трансформеров.
English
Modern text-to-video synthesis models demonstrate coherent, photorealistic
generation of complex videos from a text description. However, most existing
models lack fine-grained control over camera movement, which is critical for
downstream applications related to content creation, visual effects, and 3D
vision. Recently, new methods demonstrate the ability to generate videos with
controllable camera poses these techniques leverage pre-trained U-Net-based
diffusion models that explicitly disentangle spatial and temporal generation.
Still, no existing approach enables camera control for new, transformer-based
video diffusion models that process spatial and temporal information jointly.
Here, we propose to tame video transformers for 3D camera control using a
ControlNet-like conditioning mechanism that incorporates spatiotemporal camera
embeddings based on Plucker coordinates. The approach demonstrates
state-of-the-art performance for controllable video generation after
fine-tuning on the RealEstate10K dataset. To the best of our knowledge, our
work is the first to enable camera control for transformer-based video
diffusion models.Summary
AI-Generated Summary