ChatPaper.aiChatPaper

SV4D: Dynamische 3D-inhoudgeneratie met multi-frame en multi-view consistentie

SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

July 24, 2024
Auteurs: Yiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, Varun Jampani
cs.AI

Samenvatting

We presenteren Stable Video 4D (SV4D), een latent video-diffusiemodel voor de generatie van dynamische 3D-inhoud met meerdere frames en meerdere aanzichten die consistent zijn. In tegenstelling tot eerdere methoden die afhankelijk zijn van afzonderlijk getrainde generatieve modellen voor videogeneratie en synthese van nieuwe aanzichten, ontwerpen wij een geïntegreerd diffusiemodel om video's van dynamische 3D-objecten vanuit nieuwe aanzichten te genereren. Specifiek genereert SV4D, gegeven een monoreferentievideo, voor elk videoframe nieuwe aanzichten die temporeel consistent zijn. Vervolgens gebruiken we de gegenereerde video's met nieuwe aanzichten om efficiënt een impliciete 4D-representatie (dynamische NeRF) te optimaliseren, zonder de noodzaak van omslachtige SDS-gebaseerde optimalisatie die in de meeste eerdere werken wordt gebruikt. Om ons geïntegreerde model voor het genereren van video's met nieuwe aanzichten te trainen, hebben we een dynamische 3D-objectdataset samengesteld uit de bestaande Objaverse-dataset. Uitgebreide experimentele resultaten op meerdere datasets en gebruikersstudies tonen aan dat SV4D state-of-the-art prestaties levert in zowel de synthese van video's met nieuwe aanzichten als 4D-generatie in vergelijking met eerdere werken.
English
We present Stable Video 4D (SV4D), a latent video diffusion model for multi-frame and multi-view consistent dynamic 3D content generation. Unlike previous methods that rely on separately trained generative models for video generation and novel view synthesis, we design a unified diffusion model to generate novel view videos of dynamic 3D objects. Specifically, given a monocular reference video, SV4D generates novel views for each video frame that are temporally consistent. We then use the generated novel view videos to optimize an implicit 4D representation (dynamic NeRF) efficiently, without the need for cumbersome SDS-based optimization used in most prior works. To train our unified novel view video generation model, we curated a dynamic 3D object dataset from the existing Objaverse dataset. Extensive experimental results on multiple datasets and user studies demonstrate SV4D's state-of-the-art performance on novel-view video synthesis as well as 4D generation compared to prior works.
PDF162November 28, 2024