SplatFlow: Multi-View Rectified Flow Model voor 3D Gaussisch Splatting Synthese
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis
November 25, 2024
Auteurs: Hyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim
cs.AI
Samenvatting
Tekstgebaseerde generatie en bewerking van 3D-scènes hebben aanzienlijk potentieel om contentcreatie te stroomlijnen door intuïtieve gebruikersinteracties. Terwijl recente ontwikkelingen gebruikmaken van 3D Gaussische Splatting (3DGS) voor hoogwaardige en real-time rendering, zijn bestaande methoden vaak gespecialiseerd en taakgericht, waarbij een eenduidig kader ontbreekt voor zowel generatie als bewerking. In dit artikel introduceren we SplatFlow, een allesomvattend kader dat deze kloof overbrugt door directe 3DGS-generatie en bewerking mogelijk te maken. SplatFlow bestaat uit twee hoofdcomponenten: een multi-view rechtgetrokken stroom (RF) model en een Gaussische Splatting Decoder (GSDecoder). Het multi-view RF-model werkt in latente ruimte, genereert gelijktijdig multi-view afbeeldingen, dieptes en cameraposities, geconditioneerd op tekstprompts, waardoor uitdagingen zoals diverse scèneschalen en complexe cameratrajecten in real-world omgevingen worden aangepakt. Vervolgens vertaalt de GSDecoder efficiënt deze latente uitvoer naar 3DGS-representaties via een feedforward 3DGS-methode. Door gebruik te maken van trainingvrije inversie- en inpaintingtechnieken maakt SplatFlow naadloze 3DGS-bewerking mogelijk en ondersteunt het een breed scala aan 3D-taken, waaronder objectbewerking, synthese van nieuwe weergaven en schatting van cameraposities, binnen een eenduidig kader zonder dat er extra complexe pipelines nodig zijn. We valideren de mogelijkheden van SplatFlow op de MVImgNet en DL3DV-7K datasets, waarbij we de veelzijdigheid en effectiviteit ervan aantonen in verschillende 3D-generatie-, bewerkings- en inpainting-gebaseerde taken.
English
Text-based generation and editing of 3D scenes hold significant potential for
streamlining content creation through intuitive user interactions. While recent
advances leverage 3D Gaussian Splatting (3DGS) for high-fidelity and real-time
rendering, existing methods are often specialized and task-focused, lacking a
unified framework for both generation and editing. In this paper, we introduce
SplatFlow, a comprehensive framework that addresses this gap by enabling direct
3DGS generation and editing. SplatFlow comprises two main components: a
multi-view rectified flow (RF) model and a Gaussian Splatting Decoder
(GSDecoder). The multi-view RF model operates in latent space, generating
multi-view images, depths, and camera poses simultaneously, conditioned on text
prompts, thus addressing challenges like diverse scene scales and complex
camera trajectories in real-world settings. Then, the GSDecoder efficiently
translates these latent outputs into 3DGS representations through a
feed-forward 3DGS method. Leveraging training-free inversion and inpainting
techniques, SplatFlow enables seamless 3DGS editing and supports a broad range
of 3D tasks-including object editing, novel view synthesis, and camera pose
estimation-within a unified framework without requiring additional complex
pipelines. We validate SplatFlow's capabilities on the MVImgNet and DL3DV-7K
datasets, demonstrating its versatility and effectiveness in various 3D
generation, editing, and inpainting-based tasks.