VideoRFSplat: Generazione Diretta a Livello di Scena da Testo a 3D con Gaussian Splatting, Posa Flessibile e Modellazione Congiunta Multi-Vista
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling
March 20, 2025
Autori: Hyojun Go, Byeongjun Park, Hyelin Nam, Byung-Hoon Kim, Hyungjin Chung, Changick Kim
cs.AI
Abstract
Proponiamo VideoRFSplat, un modello diretto da testo a 3D che sfrutta un modello di generazione video per produrre realistici Gaussian Splatting 3D (3DGS) per scene del mondo reale senza limiti. Per generare pose della fotocamera diverse e un'estensione spaziale illimitata delle scene del mondo reale, garantendo al contempo la generalizzazione a prompt di testo arbitrari, i metodi precedenti adattano modelli generativi 2D per modellare congiuntamente le pose della fotocamera e le immagini multi-vista. Tuttavia, questi metodi soffrono di instabilità quando si estendono i modelli generativi 2D alla modellazione congiunta a causa del divario modale, che richiede modelli aggiuntivi per stabilizzare l'addestramento e l'inferenza. In questo lavoro, proponiamo un'architettura e una strategia di campionamento per modellare congiuntamente immagini multi-vista e pose della fotocamera durante l'adattamento di un modello di generazione video. La nostra idea centrale è un'architettura a doppio flusso che collega un modello dedicato alla generazione delle pose a un modello di generazione video pre-addestrato tramite blocchi di comunicazione, generando immagini multi-vista e pose della fotocamera attraverso flussi separati. Questo design riduce l'interferenza tra le modalità di pose e immagini. Inoltre, proponiamo una strategia di campionamento asincrono che denoizza le pose della fotocamera più velocemente delle immagini multi-vista, consentendo alle pose rapidamente denoizzate di condizionare la generazione multi-vista, riducendo l'ambiguità reciproca e migliorando la coerenza cross-modale. Addestrato su più dataset su larga scala del mondo reale (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat supera i metodi esistenti di generazione diretta da testo a 3D che dipendono fortemente da raffinamenti post-hoc tramite score distillation sampling, ottenendo risultati superiori senza tale raffinamento.
English
We propose VideoRFSplat, a direct text-to-3D model leveraging a video
generation model to generate realistic 3D Gaussian Splatting (3DGS) for
unbounded real-world scenes. To generate diverse camera poses and unbounded
spatial extent of real-world scenes, while ensuring generalization to arbitrary
text prompts, previous methods fine-tune 2D generative models to jointly model
camera poses and multi-view images. However, these methods suffer from
instability when extending 2D generative models to joint modeling due to the
modality gap, which necessitates additional models to stabilize training and
inference. In this work, we propose an architecture and a sampling strategy to
jointly model multi-view images and camera poses when fine-tuning a video
generation model. Our core idea is a dual-stream architecture that attaches a
dedicated pose generation model alongside a pre-trained video generation model
via communication blocks, generating multi-view images and camera poses through
separate streams. This design reduces interference between the pose and image
modalities. Additionally, we propose an asynchronous sampling strategy that
denoises camera poses faster than multi-view images, allowing rapidly denoised
poses to condition multi-view generation, reducing mutual ambiguity and
enhancing cross-modal consistency. Trained on multiple large-scale real-world
datasets (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat outperforms
existing text-to-3D direct generation methods that heavily depend on post-hoc
refinement via score distillation sampling, achieving superior results without
such refinement.