SplatFlow: Modelo de Flujo Rectificado de Múltiples Vistas para Splatting Gaussiano en 3D
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis
November 25, 2024
Autores: Hyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim
cs.AI
Resumen
La generación y edición basadas en texto de escenas 3D tienen un gran potencial para agilizar la creación de contenido a través de interacciones intuitivas con el usuario. Si bien los avances recientes aprovechan el Splatting Gaussiano 3D (3DGS) para renderizado de alta fidelidad y en tiempo real, los métodos existentes a menudo son especializados y centrados en tareas específicas, careciendo de un marco unificado tanto para la generación como para la edición. En este documento, presentamos SplatFlow, un marco integral que aborda esta brecha al permitir la generación y edición directa de 3DGS. SplatFlow consta de dos componentes principales: un modelo de flujo rectificado (RF) multi-vista y un Decodificador de Splatting Gaussiano (GSDecoder). El modelo RF multi-vista opera en el espacio latente, generando imágenes multi-vista, profundidades y poses de cámara simultáneamente, condicionadas a indicaciones de texto, abordando así desafíos como escalas de escena diversas y trayectorias de cámara complejas en entornos del mundo real. Luego, el GSDecoder traduce eficientemente estas salidas latentes en representaciones 3DGS a través de un método 3DGS de avance rápido. Aprovechando técnicas de inversión e inpainting sin entrenamiento, SplatFlow permite una edición de 3DGS fluida y admite una amplia gama de tareas 3D, incluida la edición de objetos, síntesis de vistas novedosas y estimación de poses de cámara, dentro de un marco unificado sin requerir tuberías complejas adicionales. Validamos las capacidades de SplatFlow en los conjuntos de datos MVImgNet y DL3DV-7K, demostrando su versatilidad y efectividad en diversas tareas de generación, edición e inpainting en 3D.
English
Text-based generation and editing of 3D scenes hold significant potential for
streamlining content creation through intuitive user interactions. While recent
advances leverage 3D Gaussian Splatting (3DGS) for high-fidelity and real-time
rendering, existing methods are often specialized and task-focused, lacking a
unified framework for both generation and editing. In this paper, we introduce
SplatFlow, a comprehensive framework that addresses this gap by enabling direct
3DGS generation and editing. SplatFlow comprises two main components: a
multi-view rectified flow (RF) model and a Gaussian Splatting Decoder
(GSDecoder). The multi-view RF model operates in latent space, generating
multi-view images, depths, and camera poses simultaneously, conditioned on text
prompts, thus addressing challenges like diverse scene scales and complex
camera trajectories in real-world settings. Then, the GSDecoder efficiently
translates these latent outputs into 3DGS representations through a
feed-forward 3DGS method. Leveraging training-free inversion and inpainting
techniques, SplatFlow enables seamless 3DGS editing and supports a broad range
of 3D tasks-including object editing, novel view synthesis, and camera pose
estimation-within a unified framework without requiring additional complex
pipelines. We validate SplatFlow's capabilities on the MVImgNet and DL3DV-7K
datasets, demonstrating its versatility and effectiveness in various 3D
generation, editing, and inpainting-based tasks.Summary
AI-Generated Summary