SplatFlow: Mehr-Ansicht Rektifiziertes Flussmodell für 3D Gauss'sches Splatting-Synthese
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis
November 25, 2024
Autoren: Hyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim
cs.AI
Zusammenfassung
Die textbasierte Generierung und Bearbeitung von 3D-Szenen birgt ein erhebliches Potenzial zur Optimierung der Inhalteerstellung durch intuitive Benutzerinteraktionen. Während aktuelle Fortschritte auf 3D-Gaußsche Splatting (3DGS) für hochwertiges und Echtzeit-Rendering setzen, sind bestehende Methoden oft spezialisiert und auf bestimmte Aufgaben ausgerichtet, wodurch ein einheitlicher Rahmen für Generierung und Bearbeitung fehlt. In diesem Artikel stellen wir SplatFlow vor, einen umfassenden Rahmen, der diese Lücke durch direkte 3DGS-Generierung und -Bearbeitung schließt. SplatFlow besteht aus zwei Hauptkomponenten: einem Mehransichts-geradlinigen Fluss (RF)-Modell und einem Gaußschen Splatting-Decoder (GSDecoder). Das Mehransichts-RF-Modell arbeitet im latenten Raum, generiert Mehransichtsbilder, Tiefen und Kamerapositionen gleichzeitig, abhängig von Texteingaben, und bewältigt so Herausforderungen wie unterschiedliche Szenenmaßstäbe und komplexe Kamerabewegungen in realen Umgebungen. Anschließend übersetzt der GSDecoder diese latenten Ausgaben effizient in 3DGS-Repräsentationen durch eine vorwärtsgerichtete 3DGS-Methode. Durch die Nutzung von trainingsfreien Inversions- und Inpainting-Techniken ermöglicht SplatFlow nahtlose 3DGS-Bearbeitung und unterstützt eine Vielzahl von 3D-Aufgaben - darunter Objektbearbeitung, neuartige Ansichtssynthese und Schätzung der Kameraposition - innerhalb eines einheitlichen Rahmens, ohne zusätzliche komplexe Abläufe zu erfordern. Wir validieren die Fähigkeiten von SplatFlow anhand der Datensätze MVImgNet und DL3DV-7K und zeigen seine Vielseitigkeit und Effektivität in verschiedenen 3D-Generierungs-, Bearbeitungs- und Inpainting-basierten Aufgaben.
English
Text-based generation and editing of 3D scenes hold significant potential for
streamlining content creation through intuitive user interactions. While recent
advances leverage 3D Gaussian Splatting (3DGS) for high-fidelity and real-time
rendering, existing methods are often specialized and task-focused, lacking a
unified framework for both generation and editing. In this paper, we introduce
SplatFlow, a comprehensive framework that addresses this gap by enabling direct
3DGS generation and editing. SplatFlow comprises two main components: a
multi-view rectified flow (RF) model and a Gaussian Splatting Decoder
(GSDecoder). The multi-view RF model operates in latent space, generating
multi-view images, depths, and camera poses simultaneously, conditioned on text
prompts, thus addressing challenges like diverse scene scales and complex
camera trajectories in real-world settings. Then, the GSDecoder efficiently
translates these latent outputs into 3DGS representations through a
feed-forward 3DGS method. Leveraging training-free inversion and inpainting
techniques, SplatFlow enables seamless 3DGS editing and supports a broad range
of 3D tasks-including object editing, novel view synthesis, and camera pose
estimation-within a unified framework without requiring additional complex
pipelines. We validate SplatFlow's capabilities on the MVImgNet and DL3DV-7K
datasets, demonstrating its versatility and effectiveness in various 3D
generation, editing, and inpainting-based tasks.