VideoRFSplat: Generazione Diretta a Livello di Scena da Testo a 3D con Gaussian Splatting, Posa Flessibile e Modellazione Congiunta Multi-Vista

Abstract

Proponiamo VideoRFSplat, un modello diretto da testo a 3D che sfrutta un modello di generazione video per produrre realistici Gaussian Splatting 3D (3DGS) per scene del mondo reale senza limiti. Per generare pose della fotocamera diverse e un'estensione spaziale illimitata delle scene del mondo reale, garantendo al contempo la generalizzazione a prompt di testo arbitrari, i metodi precedenti adattano modelli generativi 2D per modellare congiuntamente le pose della fotocamera e le immagini multi-vista. Tuttavia, questi metodi soffrono di instabilità quando si estendono i modelli generativi 2D alla modellazione congiunta a causa del divario modale, che richiede modelli aggiuntivi per stabilizzare l'addestramento e l'inferenza. In questo lavoro, proponiamo un'architettura e una strategia di campionamento per modellare congiuntamente immagini multi-vista e pose della fotocamera durante l'adattamento di un modello di generazione video. La nostra idea centrale è un'architettura a doppio flusso che collega un modello dedicato alla generazione delle pose a un modello di generazione video pre-addestrato tramite blocchi di comunicazione, generando immagini multi-vista e pose della fotocamera attraverso flussi separati. Questo design riduce l'interferenza tra le modalità di pose e immagini. Inoltre, proponiamo una strategia di campionamento asincrono che denoizza le pose della fotocamera più velocemente delle immagini multi-vista, consentendo alle pose rapidamente denoizzate di condizionare la generazione multi-vista, riducendo l'ambiguità reciproca e migliorando la coerenza cross-modale. Addestrato su più dataset su larga scala del mondo reale (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat supera i metodi esistenti di generazione diretta da testo a 3D che dipendono fortemente da raffinamenti post-hoc tramite score distillation sampling, ottenendo risultati superiori senza tale raffinamento.

English

We propose VideoRFSplat, a direct text-to-3D model leveraging a video generation model to generate realistic 3D Gaussian Splatting (3DGS) for unbounded real-world scenes. To generate diverse camera poses and unbounded spatial extent of real-world scenes, while ensuring generalization to arbitrary text prompts, previous methods fine-tune 2D generative models to jointly model camera poses and multi-view images. However, these methods suffer from instability when extending 2D generative models to joint modeling due to the modality gap, which necessitates additional models to stabilize training and inference. In this work, we propose an architecture and a sampling strategy to jointly model multi-view images and camera poses when fine-tuning a video generation model. Our core idea is a dual-stream architecture that attaches a dedicated pose generation model alongside a pre-trained video generation model via communication blocks, generating multi-view images and camera poses through separate streams. This design reduces interference between the pose and image modalities. Additionally, we propose an asynchronous sampling strategy that denoises camera poses faster than multi-view images, allowing rapidly denoised poses to condition multi-view generation, reducing mutual ambiguity and enhancing cross-modal consistency. Trained on multiple large-scale real-world datasets (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat outperforms existing text-to-3D direct generation methods that heavily depend on post-hoc refinement via score distillation sampling, achieving superior results without such refinement.

VideoRFSplat: Generazione Diretta a Livello di Scena da Testo a 3D con Gaussian Splatting, Posa Flessibile e Modellazione Congiunta Multi-Vista

VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling

Abstract

Support