SplatFlow : Modèle de flux rectifié multi-vues pour le lissage gaussien 3D
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis
November 25, 2024
Auteurs: Hyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim
cs.AI
Résumé
La génération et l'édition de scènes 3D basées sur du texte présentent un potentiel significatif pour rationaliser la création de contenu grâce à des interactions utilisateur intuitives. Alors que les avancées récentes exploitent le Splatting Gaussien 3D (3DGS) pour un rendu haute fidélité et en temps réel, les méthodes existantes sont souvent spécialisées et axées sur des tâches spécifiques, manquant d'un cadre unifié pour la génération et l'édition. Dans cet article, nous présentons SplatFlow, un cadre complet qui comble cette lacune en permettant la génération et l'édition directes en 3DGS. SplatFlow comprend deux composants principaux : un modèle de flux rectifié multi-vues (RF) et un décodeur de Splatting Gaussien (GSDecoder). Le modèle RF multi-vues opère dans l'espace latent, générant des images multi-vues, des profondeurs et des poses de caméra simultanément, conditionnés par des instructions textuelles, abordant ainsi des défis tels que les échelles de scène diverses et les trajectoires de caméra complexes dans des environnements réels. Ensuite, le GSDecoder traduit efficacement ces sorties latentes en représentations 3DGS à travers une méthode 3DGS à propagation avant. En exploitant des techniques d'inversion et d'inpainting sans entraînement, SplatFlow permet une édition 3DGS transparente et prend en charge une large gamme de tâches 3D, notamment l'édition d'objets, la synthèse de nouvelles vues et l'estimation de la pose de la caméra, au sein d'un cadre unifié sans nécessiter de pipelines complexes supplémentaires. Nous validons les capacités de SplatFlow sur les ensembles de données MVImgNet et DL3DV-7K, démontrant sa polyvalence et son efficacité dans diverses tâches de génération, d'édition et d'inpainting en 3D.
English
Text-based generation and editing of 3D scenes hold significant potential for
streamlining content creation through intuitive user interactions. While recent
advances leverage 3D Gaussian Splatting (3DGS) for high-fidelity and real-time
rendering, existing methods are often specialized and task-focused, lacking a
unified framework for both generation and editing. In this paper, we introduce
SplatFlow, a comprehensive framework that addresses this gap by enabling direct
3DGS generation and editing. SplatFlow comprises two main components: a
multi-view rectified flow (RF) model and a Gaussian Splatting Decoder
(GSDecoder). The multi-view RF model operates in latent space, generating
multi-view images, depths, and camera poses simultaneously, conditioned on text
prompts, thus addressing challenges like diverse scene scales and complex
camera trajectories in real-world settings. Then, the GSDecoder efficiently
translates these latent outputs into 3DGS representations through a
feed-forward 3DGS method. Leveraging training-free inversion and inpainting
techniques, SplatFlow enables seamless 3DGS editing and supports a broad range
of 3D tasks-including object editing, novel view synthesis, and camera pose
estimation-within a unified framework without requiring additional complex
pipelines. We validate SplatFlow's capabilities on the MVImgNet and DL3DV-7K
datasets, demonstrating its versatility and effectiveness in various 3D
generation, editing, and inpainting-based tasks.Summary
AI-Generated Summary