SplatFlow: Modelo de Fluxo Retificado de Múltiplas Visões para Splatting Gaussiano 3D - Síntese
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis
November 25, 2024
Autores: Hyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim
cs.AI
Resumo
A geração e edição de cenas 3D baseadas em texto possuem um potencial significativo para otimizar a criação de conteúdo por meio de interações intuitivas do usuário. Enquanto avanços recentes aproveitam o Splatting Gaussiano 3D (3DGS) para renderização em tempo real de alta fidelidade, os métodos existentes frequentemente são especializados e focados em tarefas específicas, carecendo de um framework unificado tanto para geração quanto para edição. Neste artigo, apresentamos o SplatFlow, um framework abrangente que aborda essa lacuna ao possibilitar a geração e edição direta de 3DGS. O SplatFlow é composto por dois componentes principais: um modelo de fluxo retificado (RF) multi-visões e um Decodificador de Splatting Gaussiano (GSDecoder). O modelo RF multi-visões opera no espaço latente, gerando imagens multi-visões, profundidades e poses de câmera simultaneamente, condicionadas a prompts de texto, lidando assim com desafios como escalas de cena diversas e trajetórias de câmera complexas em ambientes do mundo real. Em seguida, o GSDecoder traduz eficientemente essas saídas latentes em representações 3DGS por meio de um método 3DGS feed-forward. Aproveitando técnicas de inversão e inpainting sem necessidade de treinamento, o SplatFlow possibilita uma edição 3DGS contínua e suporta uma ampla gama de tarefas 3D - incluindo edição de objetos, síntese de novas visualizações e estimativa de poses de câmera - dentro de um framework unificado sem exigir pipelines complexos adicionais. Validamos as capacidades do SplatFlow nos conjuntos de dados MVImgNet e DL3DV-7K, demonstrando sua versatilidade e eficácia em várias tarefas de geração, edição e inpainting 3D.
English
Text-based generation and editing of 3D scenes hold significant potential for
streamlining content creation through intuitive user interactions. While recent
advances leverage 3D Gaussian Splatting (3DGS) for high-fidelity and real-time
rendering, existing methods are often specialized and task-focused, lacking a
unified framework for both generation and editing. In this paper, we introduce
SplatFlow, a comprehensive framework that addresses this gap by enabling direct
3DGS generation and editing. SplatFlow comprises two main components: a
multi-view rectified flow (RF) model and a Gaussian Splatting Decoder
(GSDecoder). The multi-view RF model operates in latent space, generating
multi-view images, depths, and camera poses simultaneously, conditioned on text
prompts, thus addressing challenges like diverse scene scales and complex
camera trajectories in real-world settings. Then, the GSDecoder efficiently
translates these latent outputs into 3DGS representations through a
feed-forward 3DGS method. Leveraging training-free inversion and inpainting
techniques, SplatFlow enables seamless 3DGS editing and supports a broad range
of 3D tasks-including object editing, novel view synthesis, and camera pose
estimation-within a unified framework without requiring additional complex
pipelines. We validate SplatFlow's capabilities on the MVImgNet and DL3DV-7K
datasets, demonstrating its versatility and effectiveness in various 3D
generation, editing, and inpainting-based tasks.Summary
AI-Generated Summary