VideoFrom3D: Generación de videos de escenas 3D mediante modelos de difusión complementarios de imágenes y videos
VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models
September 22, 2025
Autores: Geonung Kim, Janghyeok Han, Sunghyun Cho
cs.AI
Resumen
En este artículo, proponemos VideoFrom3D, un marco novedoso para sintetizar videos de escenas 3D de alta calidad a partir de geometría aproximada, una trayectoria de cámara y una imagen de referencia. Nuestro enfoque optimiza el flujo de trabajo de diseño gráfico 3D, permitiendo una exploración flexible del diseño y la producción rápida de entregables. Un enfoque directo para sintetizar un video a partir de geometría aproximada podría condicionar un modelo de difusión de video en la estructura geométrica. Sin embargo, los modelos de difusión de video existentes tienen dificultades para generar resultados de alta fidelidad en escenas complejas debido a la dificultad de modelar conjuntamente la calidad visual, el movimiento y la consistencia temporal. Para abordar esto, proponemos un marco generativo que aprovecha las fortalezas complementarias de los modelos de difusión de imágenes y videos. Específicamente, nuestro marco consta de un módulo de Generación de Vistas Ancla Dispersas (SAG, por sus siglas en inglés) y un módulo de Interpolación Generativa Guiada por Geometría (GGI). El módulo SAG genera vistas ancla de alta calidad y consistentes entre diferentes perspectivas utilizando un modelo de difusión de imágenes, asistido por Muestreo Guiado por Apariencia Dispersa. Basándose en estas vistas ancla, el módulo GGI interpola fielmente los fotogramas intermedios utilizando un modelo de difusión de video, mejorado por el control de cámara basado en flujo y la guía estructural. Cabe destacar que ambos módulos operan sin ningún conjunto de datos emparejados de modelos de escenas 3D e imágenes naturales, lo cual es extremadamente difícil de obtener. Experimentos exhaustivos muestran que nuestro método produce videos de escenas de alta calidad y con estilo consistente en diversos y desafiantes escenarios, superando a las líneas base simples y extendidas.
English
In this paper, we propose VideoFrom3D, a novel framework for synthesizing
high-quality 3D scene videos from coarse geometry, a camera trajectory, and a
reference image. Our approach streamlines the 3D graphic design workflow,
enabling flexible design exploration and rapid production of deliverables. A
straightforward approach to synthesizing a video from coarse geometry might
condition a video diffusion model on geometric structure. However, existing
video diffusion models struggle to generate high-fidelity results for complex
scenes due to the difficulty of jointly modeling visual quality, motion, and
temporal consistency. To address this, we propose a generative framework that
leverages the complementary strengths of image and video diffusion models.
Specifically, our framework consists of a Sparse Anchor-view Generation (SAG)
and a Geometry-guided Generative Inbetweening (GGI) module. The SAG module
generates high-quality, cross-view consistent anchor views using an image
diffusion model, aided by Sparse Appearance-guided Sampling. Building on these
anchor views, GGI module faithfully interpolates intermediate frames using a
video diffusion model, enhanced by flow-based camera control and structural
guidance. Notably, both modules operate without any paired dataset of 3D scene
models and natural images, which is extremely difficult to obtain.
Comprehensive experiments show that our method produces high-quality,
style-consistent scene videos under diverse and challenging scenarios,
outperforming simple and extended baselines.