FlexiDreamer: Generación de Imagen Única a 3D con FlexiCubes
FlexiDreamer: Single Image-to-3D Generation with FlexiCubes
April 1, 2024
Autores: Ruowen Zhao, Zhengyi Wang, Yikai Wang, Zihan Zhou, Jun Zhu
cs.AI
Resumen
La generación de contenido 3D a partir de indicaciones de texto o imágenes únicas ha experimentado un progreso notable en calidad y velocidad recientemente. Uno de sus paradigmas dominantes implica la generación de imágenes consistentes de múltiples vistas, seguidas de una reconstrucción con vistas escasas. Sin embargo, debido al desafío de deformar directamente la representación de malla para aproximarse a la topología objetivo, la mayoría de las metodologías aprenden una representación implícita (como NeRF) durante la reconstrucción con vistas escasas y adquieren la malla objetivo mediante una extracción de post-procesamiento. Aunque la representación implícita puede modelar eficazmente información 3D rica, su entrenamiento suele requerir un tiempo de convergencia prolongado. Además, la operación de extracción posterior desde el campo implícito también conduce a artefactos visuales no deseados. En este artículo, proponemos FlexiDreamer, un novedoso marco de generación de imagen única a 3D que reconstruye la malla objetivo de manera integral. Al aprovechar una extracción flexible basada en gradientes conocida como FlexiCubes, nuestro método evita los defectos causados por el post-procesamiento y facilita la adquisición directa de la malla objetivo. Además, incorporamos un esquema de codificación de cuadrícula hash de múltiples resoluciones que activa progresivamente los niveles de codificación en el campo implícito de FlexiCubes para ayudar a capturar detalles geométricos en la optimización por pasos. Notablemente, FlexiDreamer recupera una estructura 3D densa a partir de una imagen de vista única en aproximadamente 1 minuto en una sola GPU NVIDIA A100, superando ampliamente las metodologías anteriores.
English
3D content generation from text prompts or single images has made remarkable
progress in quality and speed recently. One of its dominant paradigms involves
generating consistent multi-view images followed by a sparse-view
reconstruction. However, due to the challenge of directly deforming the mesh
representation to approach the target topology, most methodologies learn an
implicit representation (such as NeRF) during the sparse-view reconstruction
and acquire the target mesh by a post-processing extraction. Although the
implicit representation can effectively model rich 3D information, its training
typically entails a long convergence time. In addition, the post-extraction
operation from the implicit field also leads to undesirable visual artifacts.
In this paper, we propose FlexiDreamer, a novel single image-to-3d generation
framework that reconstructs the target mesh in an end-to-end manner. By
leveraging a flexible gradient-based extraction known as FlexiCubes, our method
circumvents the defects brought by the post-processing and facilitates a direct
acquisition of the target mesh. Furthermore, we incorporate a multi-resolution
hash grid encoding scheme that progressively activates the encoding levels into
the implicit field in FlexiCubes to help capture geometric details for per-step
optimization. Notably, FlexiDreamer recovers a dense 3D structure from a
single-view image in approximately 1 minute on a single NVIDIA A100 GPU,
outperforming previous methodologies by a large margin.Summary
AI-Generated Summary