ChatPaper.aiChatPaper

VideoFrom3D: Generazione di Video di Scene 3D tramite Modelli di Diffusione Complementari di Immagini e Video

VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models

September 22, 2025
Autori: Geonung Kim, Janghyeok Han, Sunghyun Cho
cs.AI

Abstract

In questo articolo, proponiamo VideoFrom3D, un nuovo framework per la sintesi di video di scene 3D di alta qualità a partire da una geometria approssimativa, una traiettoria della telecamera e un'immagine di riferimento. Il nostro approccio semplifica il flusso di lavoro del design grafico 3D, consentendo un'esplorazione flessibile del design e una rapida produzione di risultati. Un approccio diretto per sintetizzare un video da una geometria approssimativa potrebbe condizionare un modello di diffusione video sulla struttura geometrica. Tuttavia, i modelli di diffusione video esistenti faticano a generare risultati ad alta fedeltà per scene complesse a causa della difficoltà di modellare congiuntamente la qualità visiva, il movimento e la coerenza temporale. Per affrontare questo problema, proponiamo un framework generativo che sfrutta i punti di forza complementari dei modelli di diffusione di immagini e video. Nello specifico, il nostro framework è composto da un modulo di Generazione di Viste Ancora Sparse (SAG) e da un modulo di Interpolazione Generativa Guidata dalla Geometria (GGI). Il modulo SAG genera viste ancora di alta qualità e coerenti tra le diverse prospettive utilizzando un modello di diffusione di immagini, supportato da un Campionamento Guidato dall'Aspetto Sparse. Basandosi su queste viste ancora, il modulo GGI interpola fedelmente i fotogrammi intermedi utilizzando un modello di diffusione video, potenziato dal controllo della telecamera basato sul flusso e dalla guida strutturale. È importante notare che entrambi i moduli operano senza alcun dataset accoppiato di modelli di scene 3D e immagini naturali, che è estremamente difficile da ottenere. Esperimenti completi dimostrano che il nostro metodo produce video di scene di alta qualità e coerenti nello stile in scenari diversi e impegnativi, superando le baseline semplici ed estese.
English
In this paper, we propose VideoFrom3D, a novel framework for synthesizing high-quality 3D scene videos from coarse geometry, a camera trajectory, and a reference image. Our approach streamlines the 3D graphic design workflow, enabling flexible design exploration and rapid production of deliverables. A straightforward approach to synthesizing a video from coarse geometry might condition a video diffusion model on geometric structure. However, existing video diffusion models struggle to generate high-fidelity results for complex scenes due to the difficulty of jointly modeling visual quality, motion, and temporal consistency. To address this, we propose a generative framework that leverages the complementary strengths of image and video diffusion models. Specifically, our framework consists of a Sparse Anchor-view Generation (SAG) and a Geometry-guided Generative Inbetweening (GGI) module. The SAG module generates high-quality, cross-view consistent anchor views using an image diffusion model, aided by Sparse Appearance-guided Sampling. Building on these anchor views, GGI module faithfully interpolates intermediate frames using a video diffusion model, enhanced by flow-based camera control and structural guidance. Notably, both modules operate without any paired dataset of 3D scene models and natural images, which is extremely difficult to obtain. Comprehensive experiments show that our method produces high-quality, style-consistent scene videos under diverse and challenging scenarios, outperforming simple and extended baselines.
PDF252September 23, 2025