ChatPaper.aiChatPaper

GaussianAnything: Интерактивная латентная диффузия точечного облака для генерации 3D объектов

GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

November 12, 2024
Авторы: Yushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI

Аннотация

Хотя генерация 3D-контента значительно продвинулась, существующие методы все еще сталкиваются с проблемами входных форматов, проектирования скрытого пространства и представлений вывода. В данной статье представлена новая концепция 3D-генерации, которая решает эти проблемы, предлагая масштабируемую, высококачественную 3D-генерацию с интерактивным скрытым пространством, структурированным в виде облака точек. Наша концепция использует вариационный автокодировщик (VAE) с многозрительными позированными RGB-D(глубина)-N(ормаль) отображениями в качестве входных данных, используя уникальное проектирование скрытого пространства, сохраняющее информацию о форме 3D, и включает каскадную модель диффузии скрытого пространства для улучшенного разделения формы и текстуры. Предложенный метод, GaussianAnything, поддерживает многомодальную условную 3D-генерацию, позволяя использовать входные данные в виде облака точек, подписи и одно-/многозрительных изображений. Следует отметить, что новое предложенное скрытое пространство естественным образом обеспечивает разделение геометрии и текстуры, что позволяет проводить редактирование с учетом 3D. Экспериментальные результаты демонстрируют эффективность нашего подхода на нескольких наборах данных, превосходя существующие методы как в условной 3D-генерации по тексту, так и по изображениям.
English
While 3D content generation has advanced significantly, existing methods still face challenges with input formats, latent space design, and output representations. This paper introduces a novel 3D generation framework that addresses these challenges, offering scalable, high-quality 3D generation with an interactive Point Cloud-structured Latent space. Our framework employs a Variational Autoencoder (VAE) with multi-view posed RGB-D(epth)-N(ormal) renderings as input, using a unique latent space design that preserves 3D shape information, and incorporates a cascaded latent diffusion model for improved shape-texture disentanglement. The proposed method, GaussianAnything, supports multi-modal conditional 3D generation, allowing for point cloud, caption, and single/multi-view image inputs. Notably, the newly proposed latent space naturally enables geometry-texture disentanglement, thus allowing 3D-aware editing. Experimental results demonstrate the effectiveness of our approach on multiple datasets, outperforming existing methods in both text- and image-conditioned 3D generation.

Summary

AI-Generated Summary

PDF216November 18, 2024