SplatFlow: Модель многозрительного выправленного потока для трехмерного гауссовского сплетения. Синтез
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis
November 25, 2024
Авторы: Hyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim
cs.AI
Аннотация
Генерация и редактирование трехмерных сцен на основе текста имеют значительный потенциал для оптимизации создания контента через интуитивное взаимодействие пользователя. В то время как последние достижения используют трехмерное гауссово сглаживание (3DGS) для высококачественного и реального времени визуализации, существующие методы часто специализированы и ориентированы на конкретные задачи, лишены единой структуры как для генерации, так и для редактирования. В данной статье мы представляем SplatFlow, комплексную структуру, которая заполняет этот разрыв, обеспечивая прямую генерацию и редактирование трехмерного гауссова сглаживания. SplatFlow состоит из двух основных компонентов: модели многозрительного выправленного потока (RF) и декодера гауссова сглаживания (GSDecoder). Многозрительная модель RF работает в скрытом пространстве, генерируя изображения с нескольких точек зрения, глубины и положения камеры одновременно, условно от текстовых подсказок, тем самым решая проблемы, такие как разнообразные масштабы сцен и сложные траектории камер в реальных условиях. Затем GSDecoder эффективно преобразует эти скрытые выходы в трехмерные представления 3DGS с помощью прямого метода 3DGS. Используя техники инверсии и заполнения без обучения, SplatFlow обеспечивает бесшовное редактирование 3DGS и поддерживает широкий спектр трехмерных задач, включая редактирование объектов, синтез нового вида и оценку положения камеры, в рамках единой структуры без необходимости дополнительных сложных конвейеров. Мы проверяем возможности SplatFlow на наборах данных MVImgNet и DL3DV-7K, демонстрируя его универсальность и эффективность в различных трехмерных задачах генерации, редактирования и заполнения.
English
Text-based generation and editing of 3D scenes hold significant potential for
streamlining content creation through intuitive user interactions. While recent
advances leverage 3D Gaussian Splatting (3DGS) for high-fidelity and real-time
rendering, existing methods are often specialized and task-focused, lacking a
unified framework for both generation and editing. In this paper, we introduce
SplatFlow, a comprehensive framework that addresses this gap by enabling direct
3DGS generation and editing. SplatFlow comprises two main components: a
multi-view rectified flow (RF) model and a Gaussian Splatting Decoder
(GSDecoder). The multi-view RF model operates in latent space, generating
multi-view images, depths, and camera poses simultaneously, conditioned on text
prompts, thus addressing challenges like diverse scene scales and complex
camera trajectories in real-world settings. Then, the GSDecoder efficiently
translates these latent outputs into 3DGS representations through a
feed-forward 3DGS method. Leveraging training-free inversion and inpainting
techniques, SplatFlow enables seamless 3DGS editing and supports a broad range
of 3D tasks-including object editing, novel view synthesis, and camera pose
estimation-within a unified framework without requiring additional complex
pipelines. We validate SplatFlow's capabilities on the MVImgNet and DL3DV-7K
datasets, demonstrating its versatility and effectiveness in various 3D
generation, editing, and inpainting-based tasks.Summary
AI-Generated Summary