Магическое усиление: улучшение генерации 3D с помощью диффузии с условием многопроекционного представления
Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion
April 9, 2024
Авторы: Fan Yang, Jianfeng Zhang, Yichun Shi, Bowen Chen, Chenxu Zhang, Huichao Zhang, Xiaofeng Yang, Jiashi Feng, Guosheng Lin
cs.AI
Аннотация
Благодаря быстрому развитию двумерных моделей диффузии в последнее время значительно продвинулось создание трехмерного контента. Одно из перспективных решений заключается в настройке заранее обученных двумерных моделей диффузии для использования их возможностей в создании многозрительных изображений, которые затем преобразуются в точные трехмерные модели с помощью методов, таких как быстрые нелинейные рекурсивные фильтры (fast-NeRFs) или крупные модели реконструкции. Однако, поскольку присутствует несогласованность и ограниченное разрешение генерируемых изображений, результаты генерации с использованием таких методов все еще лишены сложных текстур и геометрических форм. Для решения этой проблемы мы предлагаем Magic-Boost, многозрительную диффузионную модель, которая значительно улучшает грубые результаты генерации через краткий период оптимизации SDS (примерно 15 минут). По сравнению с предыдущими текстовыми или одним изображением основанными моделями диффузии, Magic-Boost обладает надежной способностью генерировать изображения с высокой согласованностью из псевдосинтезированных многозрительных изображений. Он обеспечивает точное руководство SDS, которое хорошо соответствует идентичности входных изображений, обогащая локальные детали как в геометрии, так и в текстуре начальных результатов генерации. Обширные эксперименты показывают, что Magic-Boost значительно улучшает грубые входные данные и генерирует трехмерные ресурсы высокого качества с богатыми геометрическими и текстурными деталями. (Страница проекта: https://magic-research.github.io/magic-boost/)
English
Benefiting from the rapid development of 2D diffusion models, 3D content
creation has made significant progress recently. One promising solution
involves the fine-tuning of pre-trained 2D diffusion models to harness their
capacity for producing multi-view images, which are then lifted into accurate
3D models via methods like fast-NeRFs or large reconstruction models. However,
as inconsistency still exists and limited generated resolution, the generation
results of such methods still lack intricate textures and complex geometries.
To solve this problem, we propose Magic-Boost, a multi-view conditioned
diffusion model that significantly refines coarse generative results through a
brief period of SDS optimization (sim15min). Compared to the previous text
or single image based diffusion models, Magic-Boost exhibits a robust
capability to generate images with high consistency from pseudo synthesized
multi-view images. It provides precise SDS guidance that well aligns with the
identity of the input images, enriching the local detail in both geometry and
texture of the initial generative results. Extensive experiments show
Magic-Boost greatly enhances the coarse inputs and generates high-quality 3D
assets with rich geometric and textural details. (Project Page:
https://magic-research.github.io/magic-boost/)Summary
AI-Generated Summary