Cycle3D: Generación de Imágenes a 3D de Alta Calidad y Consistente a través del Ciclo Generación-Reconstrucción
Cycle3D: High-quality and Consistent Image-to-3D Generation via Generation-Reconstruction Cycle
July 28, 2024
Autores: Zhenyu Tang, Junwu Zhang, Xinhua Cheng, Wangbo Yu, Chaoran Feng, Yatian Pang, Bin Lin, Li Yuan
cs.AI
Resumen
Los modelos recientes de reconstrucción 3D a gran escala suelen emplear un proceso de dos etapas, que consiste en primero generar imágenes de múltiples vistas mediante un modelo de difusión de múltiples vistas, y luego utilizar un modelo feed-forward para reconstruir imágenes en contenido 3D. Sin embargo, los modelos de difusión de múltiples vistas a menudo producen imágenes de baja calidad e inconsistentes, afectando negativamente la calidad de la reconstrucción 3D final. Para abordar este problema, proponemos un marco unificado de generación 3D llamado Cycle3D, que utiliza cíclicamente un módulo de generación basado en difusión 2D y un módulo de reconstrucción 3D feed-forward durante el proceso de difusión de múltiples pasos. Concretamente, el modelo de difusión 2D se aplica para generar texturas de alta calidad, y el modelo de reconstrucción garantiza la consistencia de múltiples vistas. Además, el modelo de difusión 2D puede controlar aún más el contenido generado e inyectar información de vista de referencia para vistas no vistas, mejorando así la diversidad y consistencia de textura de la generación 3D durante el proceso de eliminación de ruido. Experimentos extensos demuestran la capacidad superior de nuestro método para crear contenido 3D con alta calidad y consistencia en comparación con las líneas de base de vanguardia.
English
Recent 3D large reconstruction models typically employ a two-stage process,
including first generate multi-view images by a multi-view diffusion model, and
then utilize a feed-forward model to reconstruct images to 3D content.However,
multi-view diffusion models often produce low-quality and inconsistent images,
adversely affecting the quality of the final 3D reconstruction. To address this
issue, we propose a unified 3D generation framework called Cycle3D, which
cyclically utilizes a 2D diffusion-based generation module and a feed-forward
3D reconstruction module during the multi-step diffusion process. Concretely,
2D diffusion model is applied for generating high-quality texture, and the
reconstruction model guarantees multi-view consistency.Moreover, 2D diffusion
model can further control the generated content and inject reference-view
information for unseen views, thereby enhancing the diversity and texture
consistency of 3D generation during the denoising process. Extensive
experiments demonstrate the superior ability of our method to create 3D content
with high-quality and consistency compared with state-of-the-art baselines.Summary
AI-Generated Summary