VideoFrom3D : Génération de vidéos de scènes 3D via des modèles de diffusion complémentaires d'images et de vidéos
VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models
September 22, 2025
papers.authors: Geonung Kim, Janghyeok Han, Sunghyun Cho
cs.AI
papers.abstract
Dans cet article, nous proposons VideoFrom3D, un nouveau cadre pour la synthèse de vidéos de scènes 3D de haute qualité à partir d'une géométrie approximative, d'une trajectoire de caméra et d'une image de référence. Notre approche simplifie le flux de travail de conception graphique 3D, permettant une exploration de conception flexible et une production rapide de livrables. Une approche directe pour synthétiser une vidéo à partir d'une géométrie approximative pourrait consister à conditionner un modèle de diffusion vidéo sur la structure géométrique. Cependant, les modèles de diffusion vidéo existants peinent à générer des résultats de haute fidélité pour des scènes complexes en raison de la difficulté à modéliser conjointement la qualité visuelle, le mouvement et la cohérence temporelle. Pour résoudre ce problème, nous proposons un cadre génératif qui exploite les forces complémentaires des modèles de diffusion d'images et de vidéos. Plus précisément, notre cadre se compose d'un module de Génération de Vues d'Ancrage Sparse (SAG) et d'un module d'Interpolation Générative Guidée par la Géométrie (GGI). Le module SAG génère des vues d'ancrage de haute qualité et cohérentes entre les différentes perspectives en utilisant un modèle de diffusion d'images, aidé par un Échantillonnage Guidé par l'Apparence Sparse. En s'appuyant sur ces vues d'ancrage, le module GGI interpole fidèlement les images intermédiaires en utilisant un modèle de diffusion vidéo, amélioré par un contrôle de caméra basé sur le flux et une guidance structurelle. Il est à noter que les deux modules fonctionnent sans aucun ensemble de données appariées de modèles de scènes 3D et d'images naturelles, qui sont extrêmement difficiles à obtenir. Des expériences approfondies montrent que notre méthode produit des vidéos de scènes de haute qualité et cohérentes en termes de style dans divers scénarios difficiles, surpassant les bases de référence simples et étendues.
English
In this paper, we propose VideoFrom3D, a novel framework for synthesizing
high-quality 3D scene videos from coarse geometry, a camera trajectory, and a
reference image. Our approach streamlines the 3D graphic design workflow,
enabling flexible design exploration and rapid production of deliverables. A
straightforward approach to synthesizing a video from coarse geometry might
condition a video diffusion model on geometric structure. However, existing
video diffusion models struggle to generate high-fidelity results for complex
scenes due to the difficulty of jointly modeling visual quality, motion, and
temporal consistency. To address this, we propose a generative framework that
leverages the complementary strengths of image and video diffusion models.
Specifically, our framework consists of a Sparse Anchor-view Generation (SAG)
and a Geometry-guided Generative Inbetweening (GGI) module. The SAG module
generates high-quality, cross-view consistent anchor views using an image
diffusion model, aided by Sparse Appearance-guided Sampling. Building on these
anchor views, GGI module faithfully interpolates intermediate frames using a
video diffusion model, enhanced by flow-based camera control and structural
guidance. Notably, both modules operate without any paired dataset of 3D scene
models and natural images, which is extremely difficult to obtain.
Comprehensive experiments show that our method produces high-quality,
style-consistent scene videos under diverse and challenging scenarios,
outperforming simple and extended baselines.