VideoRFSplat: Geração Direta de Cenas 3D com Splatting Gaussiano a partir de Texto, com Modelagem Conjunta de Pose Flexível e Múltiplas Visões
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling
March 20, 2025
Autores: Hyojun Go, Byeongjun Park, Hyelin Nam, Byung-Hoon Kim, Hyungjin Chung, Changick Kim
cs.AI
Resumo
Propomos o VideoRFSplat, um modelo direto de texto-para-3D que utiliza um modelo de geração de vídeo para criar representações realistas de 3D Gaussian Splatting (3DGS) para cenas do mundo real sem limites. Para gerar poses de câmera diversas e extensão espacial ilimitada de cenas do mundo real, garantindo generalização para prompts de texto arbitrários, métodos anteriores ajustam modelos generativos 2D para modelar conjuntamente poses de câmera e imagens de múltiplas vistas. No entanto, esses métodos enfrentam instabilidade ao estender modelos generativos 2D para modelagem conjunta devido à lacuna de modalidade, o que exige modelos adicionais para estabilizar o treinamento e a inferência. Neste trabalho, propomos uma arquitetura e uma estratégia de amostragem para modelar conjuntamente imagens de múltiplas vistas e poses de câmera ao ajustar um modelo de geração de vídeo. Nossa ideia central é uma arquitetura de fluxo duplo que acopla um modelo dedicado de geração de poses a um modelo de geração de vídeo pré-treinado por meio de blocos de comunicação, gerando imagens de múltiplas vistas e poses de câmera através de fluxos separados. Esse design reduz a interferência entre as modalidades de pose e imagem. Além disso, propomos uma estratégia de amostragem assíncrona que remove ruídos das poses de câmera mais rapidamente do que das imagens de múltiplas vistas, permitindo que poses rapidamente limpas condicionem a geração de múltiplas vistas, reduzindo ambiguidade mútua e melhorando a consistência cross-modal. Treinado em múltiplos conjuntos de dados de grande escala do mundo real (RealEstate10K, MVImgNet, DL3DV-10K, ACID), o VideoRFSplat supera os métodos existentes de geração direta de texto-para-3D que dependem fortemente de refinamento pós-processo via amostragem de destilação de pontuação, alcançando resultados superiores sem tal refinamento.
English
We propose VideoRFSplat, a direct text-to-3D model leveraging a video
generation model to generate realistic 3D Gaussian Splatting (3DGS) for
unbounded real-world scenes. To generate diverse camera poses and unbounded
spatial extent of real-world scenes, while ensuring generalization to arbitrary
text prompts, previous methods fine-tune 2D generative models to jointly model
camera poses and multi-view images. However, these methods suffer from
instability when extending 2D generative models to joint modeling due to the
modality gap, which necessitates additional models to stabilize training and
inference. In this work, we propose an architecture and a sampling strategy to
jointly model multi-view images and camera poses when fine-tuning a video
generation model. Our core idea is a dual-stream architecture that attaches a
dedicated pose generation model alongside a pre-trained video generation model
via communication blocks, generating multi-view images and camera poses through
separate streams. This design reduces interference between the pose and image
modalities. Additionally, we propose an asynchronous sampling strategy that
denoises camera poses faster than multi-view images, allowing rapidly denoised
poses to condition multi-view generation, reducing mutual ambiguity and
enhancing cross-modal consistency. Trained on multiple large-scale real-world
datasets (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat outperforms
existing text-to-3D direct generation methods that heavily depend on post-hoc
refinement via score distillation sampling, achieving superior results without
such refinement.Summary
AI-Generated Summary