Cycle3D: Geração de Imagens em 3D de Alta Qualidade e Consistência por meio do Ciclo de Geração-Reconstrução
Cycle3D: High-quality and Consistent Image-to-3D Generation via Generation-Reconstruction Cycle
July 28, 2024
Autores: Zhenyu Tang, Junwu Zhang, Xinhua Cheng, Wangbo Yu, Chaoran Feng, Yatian Pang, Bin Lin, Li Yuan
cs.AI
Resumo
Os modelos recentes de reconstrução 3D em larga escala geralmente empregam um processo de dois estágios, incluindo primeiro a geração de imagens de várias vistas por meio de um modelo de difusão de várias vistas e, em seguida, utilizam um modelo feed-forward para reconstruir imagens em conteúdo 3D. No entanto, os modelos de difusão de várias vistas frequentemente produzem imagens de baixa qualidade e inconsistentes, afetando adversamente a qualidade da reconstrução 3D final. Para lidar com esse problema, propomos um framework unificado de geração 3D chamado Cycle3D, que utiliza ciclicamente um módulo de geração baseado em difusão 2D e um módulo de reconstrução 3D feed-forward durante o processo de difusão de vários passos. Concretamente, o modelo de difusão 2D é aplicado para gerar texturas de alta qualidade, e o modelo de reconstrução garante consistência de várias vistas. Além disso, o modelo de difusão 2D pode controlar ainda mais o conteúdo gerado e injetar informações de vista de referência para vistas não vistas, melhorando assim a diversidade e a consistência de textura da geração 3D durante o processo de remoção de ruído. Experimentos extensos demonstram a capacidade superior de nosso método de criar conteúdo 3D com alta qualidade e consistência em comparação com as bases de referência de ponta.
English
Recent 3D large reconstruction models typically employ a two-stage process,
including first generate multi-view images by a multi-view diffusion model, and
then utilize a feed-forward model to reconstruct images to 3D content.However,
multi-view diffusion models often produce low-quality and inconsistent images,
adversely affecting the quality of the final 3D reconstruction. To address this
issue, we propose a unified 3D generation framework called Cycle3D, which
cyclically utilizes a 2D diffusion-based generation module and a feed-forward
3D reconstruction module during the multi-step diffusion process. Concretely,
2D diffusion model is applied for generating high-quality texture, and the
reconstruction model guarantees multi-view consistency.Moreover, 2D diffusion
model can further control the generated content and inject reference-view
information for unseen views, thereby enhancing the diversity and texture
consistency of 3D generation during the denoising process. Extensive
experiments demonstrate the superior ability of our method to create 3D content
with high-quality and consistency compared with state-of-the-art baselines.Summary
AI-Generated Summary