ComboVerse: Композиционное создание 3D-активов с использованием пространственно осознанного руководства диффузией.
ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance
March 19, 2024
Авторы: Yongwei Chen, Tengfei Wang, Tong Wu, Xingang Pan, Kui Jia, Ziwei Liu
cs.AI
Аннотация
Генерация высококачественных 3D-объектов из заданного изображения является весьма желательной в различных приложениях, таких как дополненная и виртуальная реальность. Недавние достижения в области генерации 3D по одному изображению исследуют модели прямого распространения, которые учатся выводить 3D-модель объекта без оптимизации. Хотя были достигнуты обнадеживающие результаты в генерации одиночных объектов, эти методы часто испытывают трудности в моделировании сложных 3D-объектов, которые по своей природе содержат несколько объектов. В данной работе мы представляем ComboVerse, фреймворк генерации 3D, который создает высококачественные 3D-объекты с комплексными композициями, обучаясь комбинировать несколько моделей. 1) Сначала мы проводим подробный анализ этой "многомерной разницы" как с модельной, так и с данными. 2) Затем, имея восстановленные 3D-модели различных объектов, мы стремимся изменить их размеры, углы поворота и местоположение, чтобы создать 3D-объект, соответствующий заданному изображению. 3) Для автоматизации этого процесса мы применяем пространственно-осознанное сэмплирование оценочных баллов (SSDS) из предварительно обученных моделей диффузии для направления позиционирования объектов. Наш предложенный фреймворк акцентирует пространственное выравнивание объектов по сравнению со стандартным сэмплированием оценочных баллов и, таким образом, достигает более точных результатов. Обширные эксперименты подтверждают, что ComboVerse демонстрирует явные улучшения по сравнению с существующими методами в генерации композиционных 3D-объектов.
English
Generating high-quality 3D assets from a given image is highly desirable in
various applications such as AR/VR. Recent advances in single-image 3D
generation explore feed-forward models that learn to infer the 3D model of an
object without optimization. Though promising results have been achieved in
single object generation, these methods often struggle to model complex 3D
assets that inherently contain multiple objects. In this work, we present
ComboVerse, a 3D generation framework that produces high-quality 3D assets with
complex compositions by learning to combine multiple models. 1) We first
perform an in-depth analysis of this ``multi-object gap'' from both model and
data perspectives. 2) Next, with reconstructed 3D models of different objects,
we seek to adjust their sizes, rotation angles, and locations to create a 3D
asset that matches the given image. 3) To automate this process, we apply
spatially-aware score distillation sampling (SSDS) from pretrained diffusion
models to guide the positioning of objects. Our proposed framework emphasizes
spatial alignment of objects, compared with standard score distillation
sampling, and thus achieves more accurate results. Extensive experiments
validate ComboVerse achieves clear improvements over existing methods in
generating compositional 3D assets.Summary
AI-Generated Summary