ChatPaper.aiChatPaper

Генерация 3D-моделей из текста с использованием двунаправленной диффузии на основе 2D и 3D априорных данных

Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

December 7, 2023
Авторы: Lihe Ding, Shaocong Dong, Zhanpeng Huang, Zibin Wang, Yiyuan Zhang, Kaixiong Gong, Dan Xu, Tianfan Xue
cs.AI

Аннотация

Большинство исследований в области генерации 3D-моделей сосредоточено на проецировании 2D-моделей в 3D-пространство, либо путем минимизации 2D-потери Score Distillation Sampling (SDS), либо путем дообучения на наборах данных с несколькими видами. Без явных 3D-приоров эти методы часто приводят к геометрическим аномалиям и несогласованности между видами. Недавно исследователи попытались улучшить достоверность 3D-объектов, обучая модели непосредственно на 3D-наборах данных, однако это привело к низкому качеству генерации текстур из-за ограниченного разнообразия текстур в таких наборах. Чтобы объединить преимущества обоих подходов, мы предлагаем Bidirectional Diffusion (BiDiff) — унифицированную структуру, которая включает как 3D-, так и 2D-процессы диффузии, чтобы сохранить соответственно 3D-точность и богатство 2D-текстур. Более того, поскольку простое объединение может привести к несогласованным результатам генерации, мы дополнительно связываем их с помощью новой двунаправленной направляющей. Кроме того, наш метод может использоваться в качестве инициализации для оптимизационных моделей, что позволяет улучшить качество 3D-моделей и эффективность оптимизации, сокращая процесс генерации с 3,4 часов до 20 минут. Экспериментальные результаты показали, что наша модель обеспечивает высококачественную, разнообразную и масштабируемую генерацию 3D-моделей. Проектный сайт: https://bidiff.github.io/.
English
Most 3D generation research focuses on up-projecting 2D foundation models into the 3D space, either by minimizing 2D Score Distillation Sampling (SDS) loss or fine-tuning on multi-view datasets. Without explicit 3D priors, these methods often lead to geometric anomalies and multi-view inconsistency. Recently, researchers have attempted to improve the genuineness of 3D objects by directly training on 3D datasets, albeit at the cost of low-quality texture generation due to the limited texture diversity in 3D datasets. To harness the advantages of both approaches, we propose Bidirectional Diffusion(BiDiff), a unified framework that incorporates both a 3D and a 2D diffusion process, to preserve both 3D fidelity and 2D texture richness, respectively. Moreover, as a simple combination may yield inconsistent generation results, we further bridge them with novel bidirectional guidance. In addition, our method can be used as an initialization of optimization-based models to further improve the quality of 3D model and efficiency of optimization, reducing the generation process from 3.4 hours to 20 minutes. Experimental results have shown that our model achieves high-quality, diverse, and scalable 3D generation. Project website: https://bidiff.github.io/.
PDF170December 15, 2024