ChatPaper.aiChatPaper

VideoRFSplat: Generación Directa de Escenas Texto-a-3D con Splatting Gaussiano, Pose Flexible y Modelado Conjunto Multi-Vista

VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling

March 20, 2025
Autores: Hyojun Go, Byeongjun Park, Hyelin Nam, Byung-Hoon Kim, Hyungjin Chung, Changick Kim
cs.AI

Resumen

Proponemos VideoRFSplat, un modelo directo de texto a 3D que aprovecha un modelo de generación de videos para producir representaciones realistas de 3D Gaussian Splatting (3DGS) en escenas del mundo real sin límites. Para generar diversas poses de cámara y una extensión espacial ilimitada en escenas del mundo real, al mismo tiempo que se garantiza la generalización para cualquier indicación de texto, los métodos anteriores ajustan modelos generativos 2D para modelar conjuntamente las poses de cámara y las imágenes multivista. Sin embargo, estos métodos sufren de inestabilidad al extender modelos generativos 2D al modelado conjunto debido a la brecha de modalidad, lo que requiere modelos adicionales para estabilizar el entrenamiento y la inferencia. En este trabajo, proponemos una arquitectura y una estrategia de muestreo para modelar conjuntamente imágenes multivista y poses de cámara al ajustar un modelo de generación de videos. Nuestra idea central es una arquitectura de doble flujo que adjunta un modelo dedicado de generación de poses junto con un modelo preentrenado de generación de videos mediante bloques de comunicación, generando imágenes multivista y poses de cámara a través de flujos separados. Este diseño reduce la interferencia entre las modalidades de pose e imagen. Además, proponemos una estrategia de muestreo asíncrono que elimina el ruido de las poses de cámara más rápido que en las imágenes multivista, permitiendo que las poses rápidamente desruidadas condicionen la generación multivista, reduciendo la ambigüedad mutua y mejorando la consistencia multimodal. Entrenado en múltiples conjuntos de datos a gran escala del mundo real (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat supera a los métodos existentes de generación directa de texto a 3D que dependen en gran medida del refinamiento posterior mediante muestreo de destilación de puntuación, logrando resultados superiores sin dicho refinamiento.
English
We propose VideoRFSplat, a direct text-to-3D model leveraging a video generation model to generate realistic 3D Gaussian Splatting (3DGS) for unbounded real-world scenes. To generate diverse camera poses and unbounded spatial extent of real-world scenes, while ensuring generalization to arbitrary text prompts, previous methods fine-tune 2D generative models to jointly model camera poses and multi-view images. However, these methods suffer from instability when extending 2D generative models to joint modeling due to the modality gap, which necessitates additional models to stabilize training and inference. In this work, we propose an architecture and a sampling strategy to jointly model multi-view images and camera poses when fine-tuning a video generation model. Our core idea is a dual-stream architecture that attaches a dedicated pose generation model alongside a pre-trained video generation model via communication blocks, generating multi-view images and camera poses through separate streams. This design reduces interference between the pose and image modalities. Additionally, we propose an asynchronous sampling strategy that denoises camera poses faster than multi-view images, allowing rapidly denoised poses to condition multi-view generation, reducing mutual ambiguity and enhancing cross-modal consistency. Trained on multiple large-scale real-world datasets (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat outperforms existing text-to-3D direct generation methods that heavily depend on post-hoc refinement via score distillation sampling, achieving superior results without such refinement.

Summary

AI-Generated Summary

PDF32March 21, 2025