VideoRFSplat: Directe Scene-Level Tekst-naar-3D Gaussische Splatting Generatie met Flexibele Pose en Multi-View Gezamenlijke Modellering
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling
March 20, 2025
Auteurs: Hyojun Go, Byeongjun Park, Hyelin Nam, Byung-Hoon Kim, Hyungjin Chung, Changick Kim
cs.AI
Samenvatting
We stellen VideoRFSplat voor, een direct tekst-naar-3D-model dat gebruikmaakt van een videogeneratiemodel om realistische 3D Gaussian Splatting (3DGS) te genereren voor onbegrensde real-world scènes. Om diverse cameraposities en onbegrensde ruimtelijke omvang van real-world scènes te genereren, terwijl generalisatie naar willekeurige tekstprompts wordt gegarandeerd, fine-tunen eerdere methoden 2D-generatiemodellen om gezamenlijk cameraposities en multi-view afbeeldingen te modelleren. Deze methoden kampen echter met instabiliteit bij het uitbreiden van 2D-generatiemodellen naar gezamenlijke modellering vanwege de modaliteitskloof, wat aanvullende modellen vereist om de training en inferentie te stabiliseren. In dit werk stellen we een architectuur en een samplingstrategie voor om multi-view afbeeldingen en cameraposities gezamenlijk te modelleren bij het fine-tunen van een videogeneratiemodel. Onze kernidee is een dual-stream architectuur die een specifiek positiemodel koppelt aan een voorgetraind videogeneratiemodel via communicatieblokken, waarbij multi-view afbeeldingen en cameraposities via aparte streams worden gegenereerd. Dit ontwerp vermindert de interferentie tussen de positie- en beeldmodaliteiten. Daarnaast stellen we een asynchrone samplingstrategie voor die cameraposities sneller denoiseert dan multi-view afbeeldingen, waardoor snel gedenoiseerde posities de multi-view generatie kunnen conditioneren, wat wederzijdse ambiguïteit vermindert en de cross-modale consistentie verbetert. Getraind op meerdere grootschalige real-world datasets (RealEstate10K, MVImgNet, DL3DV-10K, ACID), presteert VideoRFSplat beter dan bestaande tekst-naar-3D directe generatiemethoden die sterk afhankelijk zijn van post-hoc verfijning via score-distillatie-sampling, en bereikt superieure resultaten zonder dergelijke verfijning.
English
We propose VideoRFSplat, a direct text-to-3D model leveraging a video
generation model to generate realistic 3D Gaussian Splatting (3DGS) for
unbounded real-world scenes. To generate diverse camera poses and unbounded
spatial extent of real-world scenes, while ensuring generalization to arbitrary
text prompts, previous methods fine-tune 2D generative models to jointly model
camera poses and multi-view images. However, these methods suffer from
instability when extending 2D generative models to joint modeling due to the
modality gap, which necessitates additional models to stabilize training and
inference. In this work, we propose an architecture and a sampling strategy to
jointly model multi-view images and camera poses when fine-tuning a video
generation model. Our core idea is a dual-stream architecture that attaches a
dedicated pose generation model alongside a pre-trained video generation model
via communication blocks, generating multi-view images and camera poses through
separate streams. This design reduces interference between the pose and image
modalities. Additionally, we propose an asynchronous sampling strategy that
denoises camera poses faster than multi-view images, allowing rapidly denoised
poses to condition multi-view generation, reducing mutual ambiguity and
enhancing cross-modal consistency. Trained on multiple large-scale real-world
datasets (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat outperforms
existing text-to-3D direct generation methods that heavily depend on post-hoc
refinement via score distillation sampling, achieving superior results without
such refinement.Summary
AI-Generated Summary