LucidDreamer: Генерация сцен с 3D-гауссовыми сплатами без привязки к домену
LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes
November 22, 2023
Авторы: Jaeyoung Chung, Suyoung Lee, Hyeongjin Nam, Jaerin Lee, Kyoung Mu Lee
cs.AI
Аннотация
С широким распространением VR-устройств и контента растет спрос на технологии генерации 3D-сцен. Однако существующие модели генерации 3D-сцен ограничивают целевую сцену конкретной областью, в основном из-за стратегий обучения, использующих наборы данных 3D-сканирования, которые далеки от реального мира. Чтобы устранить это ограничение, мы предлагаем LucidDreamer — универсальный конвейер генерации сцен, полностью использующий возможности существующих крупномасштабных генеративных моделей на основе диффузии. Наш LucidDreamer состоит из двух чередующихся этапов: "Сновидение" и "Согласование". Во-первых, для генерации многовидовых согласованных изображений из входных данных мы используем облако точек в качестве геометрического ориентира для генерации каждого изображения. В частности, мы проецируем часть облака точек на желаемый вид и используем эту проекцию как ориентир для восстановления изображения с помощью генеративной модели. Восстановленные изображения преобразуются в 3D-пространство с использованием оцененных карт глубины, формируя новые точки. Во-вторых, для объединения новых точек в 3D-сцену мы предлагаем алгоритм согласования, который гармонично интегрирует части вновь сгенерированных 3D-сцен. Полученная 3D-сцена служит начальными точками для оптимизации сплатов Гаусса. LucidDreamer создает сплаты Гаусса, которые отличаются высокой детализацией по сравнению с предыдущими методами генерации 3D-сцен, без ограничений на область целевой сцены.
English
With the widespread usage of VR devices and contents, demands for 3D scene
generation techniques become more popular. Existing 3D scene generation models,
however, limit the target scene to specific domain, primarily due to their
training strategies using 3D scan dataset that is far from the real-world. To
address such limitation, we propose LucidDreamer, a domain-free scene
generation pipeline by fully leveraging the power of existing large-scale
diffusion-based generative model. Our LucidDreamer has two alternate steps:
Dreaming and Alignment. First, to generate multi-view consistent images from
inputs, we set the point cloud as a geometrical guideline for each image
generation. Specifically, we project a portion of point cloud to the desired
view and provide the projection as a guidance for inpainting using the
generative model. The inpainted images are lifted to 3D space with estimated
depth maps, composing a new points. Second, to aggregate the new points into
the 3D scene, we propose an aligning algorithm which harmoniously integrates
the portions of newly generated 3D scenes. The finally obtained 3D scene serves
as initial points for optimizing Gaussian splats. LucidDreamer produces
Gaussian splats that are highly-detailed compared to the previous 3D scene
generation methods, with no constraint on domain of the target scene.