PartGen: Генерация и восстановление трехмерных объектов на уровне частей с использованием моделей диффузии из нескольких видов данных.
PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models
December 24, 2024
Авторы: Minghao Chen, Roman Shapovalov, Iro Laina, Tom Monnier, Jianyuan Wang, David Novotny, Andrea Vedaldi
cs.AI
Аннотация
Генераторы трехмерных объектов по тексту или изображению, а также трехмерные сканеры теперь могут создавать трехмерные ресурсы с высококачественными формами и текстурами. Эти ресурсы обычно представляют собой единую объединенную структуру, такую как неявное нейронное поле, гауссова смесь или сетка, без какой-либо полезной структуры. Однако большинство приложений и творческих рабочих процессов требуют, чтобы ресурсы состояли из нескольких значимых частей, которые можно было бы манипулировать независимо. Для решения этой проблемы мы представляем PartGen, новый подход, который генерирует трехмерные объекты, состоящие из значимых частей, начиная с текста, изображения или неструктурированного трехмерного объекта. Сначала, имея несколько видов трехмерного объекта, сгенерированных или отрендеренных, многовидовая модель диффузии извлекает набор правдоподобных и согласованных с видом сегментаций частей, разделяя объект на части. Затем вторая многовидовая модель диффузии берет каждую часть отдельно, заполняет заслонки и использует завершенные виды для трехмерной реконструкции, передавая их в сеть трехмерной реконструкции. Этот процесс завершения учитывает контекст всего объекта, чтобы гарантировать согласованное объединение частей. Генеративная модель завершения может восстанавливать информацию, отсутствующую из-за заслонок; в экстремальных случаях она может галлюцинировать полностью невидимые части на основе входного трехмерного ресурса. Мы оцениваем наш метод на сгенерированных и реальных трехмерных ресурсах и показываем, что он превосходит базовые линии сегментации и извлечения частей с большим отрывом. Мы также демонстрируем прикладные программы, такие как редактирование трехмерных частей.
English
Text- or image-to-3D generators and 3D scanners can now produce 3D assets
with high-quality shapes and textures. These assets typically consist of a
single, fused representation, like an implicit neural field, a Gaussian
mixture, or a mesh, without any useful structure. However, most applications
and creative workflows require assets to be made of several meaningful parts
that can be manipulated independently. To address this gap, we introduce
PartGen, a novel approach that generates 3D objects composed of meaningful
parts starting from text, an image, or an unstructured 3D object. First, given
multiple views of a 3D object, generated or rendered, a multi-view diffusion
model extracts a set of plausible and view-consistent part segmentations,
dividing the object into parts. Then, a second multi-view diffusion model takes
each part separately, fills in the occlusions, and uses those completed views
for 3D reconstruction by feeding them to a 3D reconstruction network. This
completion process considers the context of the entire object to ensure that
the parts integrate cohesively. The generative completion model can make up for
the information missing due to occlusions; in extreme cases, it can hallucinate
entirely invisible parts based on the input 3D asset. We evaluate our method on
generated and real 3D assets and show that it outperforms segmentation and
part-extraction baselines by a large margin. We also showcase downstream
applications such as 3D part editing.Summary
AI-Generated Summary