ChatPaper.aiChatPaper

SV4D: Генерация динамического 3D-контента с многокадровой и многопроекционной согласованностью

SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

July 24, 2024
Авторы: Yiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, Varun Jampani
cs.AI

Аннотация

Мы представляем модель стабильной диффузии видео 4D (SV4D) - латентную модель диффузии для генерации динамического 3D контента согласованного по нескольким кадрам и точкам зрения. В отличие от предыдущих методов, которые полагаются на отдельно обученные генеративные модели для генерации видео и синтеза новых видов, мы разработали объединенную модель диффузии для создания видео новых видов динамических 3D объектов. Конкретно, учитывая монокулярное опорное видео, SV4D генерирует новые виды для каждого кадра видео, которые являются временно согласованными. Затем мы используем сгенерированные видео новых видов для эффективной оптимизации неявного 4D представления (динамический NeRF), без необходимости громоздкой оптимизации на основе SDS, используемой в большинстве предыдущих работ. Для обучения нашей объединенной модели генерации видео новых видов мы составили динамический набор данных 3D объектов из существующего набора данных Objaverse. Обширные экспериментальные результаты на нескольких наборах данных и пользовательские исследования демонстрируют передовую производительность SV4D в синтезе видео новых видов, а также в генерации 4D по сравнению с предыдущими работами.
English
We present Stable Video 4D (SV4D), a latent video diffusion model for multi-frame and multi-view consistent dynamic 3D content generation. Unlike previous methods that rely on separately trained generative models for video generation and novel view synthesis, we design a unified diffusion model to generate novel view videos of dynamic 3D objects. Specifically, given a monocular reference video, SV4D generates novel views for each video frame that are temporally consistent. We then use the generated novel view videos to optimize an implicit 4D representation (dynamic NeRF) efficiently, without the need for cumbersome SDS-based optimization used in most prior works. To train our unified novel view video generation model, we curated a dynamic 3D object dataset from the existing Objaverse dataset. Extensive experimental results on multiple datasets and user studies demonstrate SV4D's state-of-the-art performance on novel-view video synthesis as well as 4D generation compared to prior works.

Summary

AI-Generated Summary

PDF162November 28, 2024