VideoFrom3D: 3D-Szenen-Videogenerierung durch komplementäre Bild- und Video-Diffusionsmodelle
VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models
September 22, 2025
papers.authors: Geonung Kim, Janghyeok Han, Sunghyun Cho
cs.AI
papers.abstract
In diesem Artikel stellen wir VideoFrom3D vor, ein neuartiges Framework zur Synthese hochwertiger 3D-Szenenvideos aus grober Geometrie, einer Kameratrajektorie und einem Referenzbild. Unser Ansatz vereinfacht den 3D-Grafikdesign-Workflow und ermöglicht flexible Designexploration sowie die schnelle Erstellung von Ergebnissen. Ein naheliegender Ansatz zur Videosynthese aus grober Geometrie könnte ein Video-Diffusionsmodell auf der geometrischen Struktur konditionieren. Bestehende Video-Diffusionsmodelle haben jedoch Schwierigkeiten, hochwertige Ergebnisse für komplexe Szenen zu erzeugen, da die gemeinsame Modellierung von visueller Qualität, Bewegung und zeitlicher Konsistenz eine Herausforderung darstellt. Um dies zu lösen, schlagen wir ein generatives Framework vor, das die komplementären Stärken von Bild- und Video-Diffusionsmodellen nutzt. Konkret besteht unser Framework aus einem Sparse Anchor-view Generation (SAG)-Modul und einem Geometry-guided Generative Inbetweening (GGI)-Modul. Das SAG-Modul erzeugt hochwertige, konsistente Ankeransichten mithilfe eines Bild-Diffusionsmodells, unterstützt durch Sparse Appearance-guided Sampling. Aufbauend auf diesen Ankeransichten interpoliert das GGI-Modul Zwischenbilder treu mithilfe eines Video-Diffusionsmodells, das durch flussbasierte Kamerasteuerung und strukturelle Führung verbessert wird. Bemerkenswerterweise arbeiten beide Module ohne ein gepaartes Datensatz von 3D-Szenenmodellen und natürlichen Bildern, der äußerst schwer zu beschaffen ist. Umfassende Experimente zeigen, dass unsere Methode hochwertige, stilkonstante Szenenvideos in diversen und anspruchsvollen Szenarien erzeugt und dabei einfache sowie erweiterte Baselines übertrifft.
English
In this paper, we propose VideoFrom3D, a novel framework for synthesizing
high-quality 3D scene videos from coarse geometry, a camera trajectory, and a
reference image. Our approach streamlines the 3D graphic design workflow,
enabling flexible design exploration and rapid production of deliverables. A
straightforward approach to synthesizing a video from coarse geometry might
condition a video diffusion model on geometric structure. However, existing
video diffusion models struggle to generate high-fidelity results for complex
scenes due to the difficulty of jointly modeling visual quality, motion, and
temporal consistency. To address this, we propose a generative framework that
leverages the complementary strengths of image and video diffusion models.
Specifically, our framework consists of a Sparse Anchor-view Generation (SAG)
and a Geometry-guided Generative Inbetweening (GGI) module. The SAG module
generates high-quality, cross-view consistent anchor views using an image
diffusion model, aided by Sparse Appearance-guided Sampling. Building on these
anchor views, GGI module faithfully interpolates intermediate frames using a
video diffusion model, enhanced by flow-based camera control and structural
guidance. Notably, both modules operate without any paired dataset of 3D scene
models and natural images, which is extremely difficult to obtain.
Comprehensive experiments show that our method produces high-quality,
style-consistent scene videos under diverse and challenging scenarios,
outperforming simple and extended baselines.