ChatPaper.aiChatPaper

VideoFrom3D: Geração de Vídeos de Cenas 3D via Modelos de Difusão Complementares de Imagem e Vídeo

VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models

September 22, 2025
Autores: Geonung Kim, Janghyeok Han, Sunghyun Cho
cs.AI

Resumo

Neste artigo, propomos o VideoFrom3D, uma nova estrutura para sintetizar vídeos de cenas 3D de alta qualidade a partir de geometria grosseira, uma trajetória de câmera e uma imagem de referência. Nossa abordagem simplifica o fluxo de trabalho de design gráfico 3D, permitindo exploração flexível de design e produção rápida de entregáveis. Uma abordagem direta para sintetizar um vídeo a partir de geometria grosseira poderia condicionar um modelo de difusão de vídeo na estrutura geométrica. No entanto, os modelos de difusão de vídeo existentes lutam para gerar resultados de alta fidelidade para cenas complexas devido à dificuldade de modelar conjuntamente qualidade visual, movimento e consistência temporal. Para resolver isso, propomos uma estrutura generativa que aproveita os pontos fortes complementares dos modelos de difusão de imagem e vídeo. Especificamente, nossa estrutura consiste em um Módulo de Geração de Visões Âncora Esparsas (SAG) e um Módulo de Interpolação Generativa Guiada por Geometria (GGI). O módulo SAG gera visões âncora de alta qualidade e consistentes entre diferentes perspectivas usando um modelo de difusão de imagem, auxiliado por Amostragem Guiada por Aparência Esparsa. Com base nessas visões âncora, o módulo GGI interpola fielmente quadros intermediários usando um modelo de difusão de vídeo, aprimorado por controle de câmera baseado em fluxo e orientação estrutural. Notavelmente, ambos os módulos operam sem qualquer conjunto de dados pareados de modelos de cena 3D e imagens naturais, que é extremamente difícil de obter. Experimentos abrangentes mostram que nosso método produz vídeos de cena de alta qualidade e consistentes em estilo em diversos cenários desafiadores, superando linhas de base simples e estendidas.
English
In this paper, we propose VideoFrom3D, a novel framework for synthesizing high-quality 3D scene videos from coarse geometry, a camera trajectory, and a reference image. Our approach streamlines the 3D graphic design workflow, enabling flexible design exploration and rapid production of deliverables. A straightforward approach to synthesizing a video from coarse geometry might condition a video diffusion model on geometric structure. However, existing video diffusion models struggle to generate high-fidelity results for complex scenes due to the difficulty of jointly modeling visual quality, motion, and temporal consistency. To address this, we propose a generative framework that leverages the complementary strengths of image and video diffusion models. Specifically, our framework consists of a Sparse Anchor-view Generation (SAG) and a Geometry-guided Generative Inbetweening (GGI) module. The SAG module generates high-quality, cross-view consistent anchor views using an image diffusion model, aided by Sparse Appearance-guided Sampling. Building on these anchor views, GGI module faithfully interpolates intermediate frames using a video diffusion model, enhanced by flow-based camera control and structural guidance. Notably, both modules operate without any paired dataset of 3D scene models and natural images, which is extremely difficult to obtain. Comprehensive experiments show that our method produces high-quality, style-consistent scene videos under diverse and challenging scenarios, outperforming simple and extended baselines.
PDF252September 23, 2025