PartGen: Генерация и восстановление трехмерных объектов на уровне частей с использованием моделей диффузии из нескольких видов данных.

Аннотация

Генераторы трехмерных объектов по тексту или изображению, а также трехмерные сканеры теперь могут создавать трехмерные ресурсы с высококачественными формами и текстурами. Эти ресурсы обычно представляют собой единую объединенную структуру, такую как неявное нейронное поле, гауссова смесь или сетка, без какой-либо полезной структуры. Однако большинство приложений и творческих рабочих процессов требуют, чтобы ресурсы состояли из нескольких значимых частей, которые можно было бы манипулировать независимо. Для решения этой проблемы мы представляем PartGen, новый подход, который генерирует трехмерные объекты, состоящие из значимых частей, начиная с текста, изображения или неструктурированного трехмерного объекта. Сначала, имея несколько видов трехмерного объекта, сгенерированных или отрендеренных, многовидовая модель диффузии извлекает набор правдоподобных и согласованных с видом сегментаций частей, разделяя объект на части. Затем вторая многовидовая модель диффузии берет каждую часть отдельно, заполняет заслонки и использует завершенные виды для трехмерной реконструкции, передавая их в сеть трехмерной реконструкции. Этот процесс завершения учитывает контекст всего объекта, чтобы гарантировать согласованное объединение частей. Генеративная модель завершения может восстанавливать информацию, отсутствующую из-за заслонок; в экстремальных случаях она может галлюцинировать полностью невидимые части на основе входного трехмерного ресурса. Мы оцениваем наш метод на сгенерированных и реальных трехмерных ресурсах и показываем, что он превосходит базовые линии сегментации и извлечения частей с большим отрывом. Мы также демонстрируем прикладные программы, такие как редактирование трехмерных частей.

English

Text- or image-to-3D generators and 3D scanners can now produce 3D assets with high-quality shapes and textures. These assets typically consist of a single, fused representation, like an implicit neural field, a Gaussian mixture, or a mesh, without any useful structure. However, most applications and creative workflows require assets to be made of several meaningful parts that can be manipulated independently. To address this gap, we introduce PartGen, a novel approach that generates 3D objects composed of meaningful parts starting from text, an image, or an unstructured 3D object. First, given multiple views of a 3D object, generated or rendered, a multi-view diffusion model extracts a set of plausible and view-consistent part segmentations, dividing the object into parts. Then, a second multi-view diffusion model takes each part separately, fills in the occlusions, and uses those completed views for 3D reconstruction by feeding them to a 3D reconstruction network. This completion process considers the context of the entire object to ensure that the parts integrate cohesively. The generative completion model can make up for the information missing due to occlusions; in extreme cases, it can hallucinate entirely invisible parts based on the input 3D asset. We evaluate our method on generated and real 3D assets and show that it outperforms segmentation and part-extraction baselines by a large margin. We also showcase downstream applications such as 3D part editing.

PartGen: Генерация и восстановление трехмерных объектов на уровне частей с использованием моделей диффузии из нескольких видов данных.

PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models

Аннотация

Support