VideoRFSplat : Génération directe de scènes 3D par projection de Gaussiennes à partir de texte, avec modélisation conjointe multi-vues et gestion flexible des poses
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling
March 20, 2025
Auteurs: Hyojun Go, Byeongjun Park, Hyelin Nam, Byung-Hoon Kim, Hyungjin Chung, Changick Kim
cs.AI
Résumé
Nous proposons VideoRFSplat, un modèle direct de texte-à-3D qui exploite un modèle de génération vidéo pour produire des représentations réalistes en 3D par splatting gaussien (3DGS) pour des scènes du monde réel sans limites. Pour générer des poses de caméra variées et une étendue spatiale illimitée de scènes réelles, tout en assurant une généralisation à des prompts textuels arbitraires, les méthodes précédentes ajustent finement des modèles génératifs 2D pour modéliser conjointement les poses de caméra et les images multi-vues. Cependant, ces méthodes souffrent d'instabilité lors de l'extension des modèles génératifs 2D à une modélisation conjointe en raison de l'écart de modalité, ce qui nécessite des modèles supplémentaires pour stabiliser l'entraînement et l'inférence. Dans ce travail, nous proposons une architecture et une stratégie d'échantillonnage pour modéliser conjointement les images multi-vues et les poses de caméra lors de l'ajustement fin d'un modèle de génération vidéo. Notre idée centrale repose sur une architecture à double flux qui associe un modèle dédié à la génération de poses à un modèle de génération vidéo pré-entraîné via des blocs de communication, générant ainsi les images multi-vues et les poses de caméra à travers des flux séparés. Cette conception réduit les interférences entre les modalités de pose et d'image. De plus, nous proposons une stratégie d'échantillonnage asynchrone qui débruite les poses de caméra plus rapidement que les images multi-vues, permettant ainsi aux poses rapidement débruitées de conditionner la génération multi-vue, réduisant l'ambiguïté mutuelle et améliorant la cohérence inter-modale. Entraîné sur plusieurs ensembles de données à grande échelle du monde réel (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat surpasse les méthodes existantes de génération directe texte-à-3D qui dépendent fortement d'un raffinement post-hoc via l'échantillonnage par distillation de score, obtenant des résultats supérieurs sans un tel raffinement.
English
We propose VideoRFSplat, a direct text-to-3D model leveraging a video
generation model to generate realistic 3D Gaussian Splatting (3DGS) for
unbounded real-world scenes. To generate diverse camera poses and unbounded
spatial extent of real-world scenes, while ensuring generalization to arbitrary
text prompts, previous methods fine-tune 2D generative models to jointly model
camera poses and multi-view images. However, these methods suffer from
instability when extending 2D generative models to joint modeling due to the
modality gap, which necessitates additional models to stabilize training and
inference. In this work, we propose an architecture and a sampling strategy to
jointly model multi-view images and camera poses when fine-tuning a video
generation model. Our core idea is a dual-stream architecture that attaches a
dedicated pose generation model alongside a pre-trained video generation model
via communication blocks, generating multi-view images and camera poses through
separate streams. This design reduces interference between the pose and image
modalities. Additionally, we propose an asynchronous sampling strategy that
denoises camera poses faster than multi-view images, allowing rapidly denoised
poses to condition multi-view generation, reducing mutual ambiguity and
enhancing cross-modal consistency. Trained on multiple large-scale real-world
datasets (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat outperforms
existing text-to-3D direct generation methods that heavily depend on post-hoc
refinement via score distillation sampling, achieving superior results without
such refinement.Summary
AI-Generated Summary