ChatPaper.aiChatPaper

VideoFrom3D: 3D-scènevideo-generatie via complementaire beeld- en videodiffusiemodellen

VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models

September 22, 2025
Auteurs: Geonung Kim, Janghyeok Han, Sunghyun Cho
cs.AI

Samenvatting

In dit artikel presenteren we VideoFrom3D, een nieuw raamwerk voor het synthetiseren van hoogwaardige 3D-scènevideo's uit grove geometrie, een cameratraject en een referentiebeeld. Onze aanpak stroomlijnt de 3D-grafische ontwerpworkflow, waardoor flexibele ontwerpverkenning en snelle productie van resultaten mogelijk worden. Een eenvoudige benadering voor het synthetiseren van een video uit grove geometrie zou een videodiffusiemodel kunnen conditioneren op geometrische structuur. Bestaande videodiffusiemodellen hebben echter moeite om hoogwaardige resultaten te genereren voor complexe scènes vanwege de moeilijkheid om visuele kwaliteit, beweging en temporele consistentie gezamenlijk te modelleren. Om dit aan te pakken, stellen we een generatief raamwerk voor dat gebruikmaakt van de complementaire sterke punten van beeld- en videodiffusiemodellen. Specifiek bestaat ons raamwerk uit een Sparse Anchor-view Generation (SAG) en een Geometry-guided Generative Inbetweening (GGI) module. De SAG module genereert hoogwaardige, kruisbeeld-consistente ankerbeelden met behulp van een beelddiffusiemodel, ondersteund door Sparse Appearance-guided Sampling. Op basis van deze ankerbeelden interpoleert de GGI module trouw tussenliggende frames met behulp van een videodiffusiemodel, versterkt door flow-gebaseerde camerabesturing en structurele begeleiding. Opmerkelijk is dat beide modules werken zonder enige gepaarde dataset van 3D-scènemodellen en natuurlijke beelden, wat extreem moeilijk te verkrijgen is. Uitgebreide experimenten tonen aan dat onze methode hoogwaardige, stijl-consistente scènevideo's produceert onder diverse en uitdagende scenario's, en daarbij eenvoudige en uitgebreide basislijnen overtreft.
English
In this paper, we propose VideoFrom3D, a novel framework for synthesizing high-quality 3D scene videos from coarse geometry, a camera trajectory, and a reference image. Our approach streamlines the 3D graphic design workflow, enabling flexible design exploration and rapid production of deliverables. A straightforward approach to synthesizing a video from coarse geometry might condition a video diffusion model on geometric structure. However, existing video diffusion models struggle to generate high-fidelity results for complex scenes due to the difficulty of jointly modeling visual quality, motion, and temporal consistency. To address this, we propose a generative framework that leverages the complementary strengths of image and video diffusion models. Specifically, our framework consists of a Sparse Anchor-view Generation (SAG) and a Geometry-guided Generative Inbetweening (GGI) module. The SAG module generates high-quality, cross-view consistent anchor views using an image diffusion model, aided by Sparse Appearance-guided Sampling. Building on these anchor views, GGI module faithfully interpolates intermediate frames using a video diffusion model, enhanced by flow-based camera control and structural guidance. Notably, both modules operate without any paired dataset of 3D scene models and natural images, which is extremely difficult to obtain. Comprehensive experiments show that our method produces high-quality, style-consistent scene videos under diverse and challenging scenarios, outperforming simple and extended baselines.
PDF252September 23, 2025