HarmonyView: Armonizando Consistencia y Diversidad en la Generación 3D a partir de una Imagen

Resumen

Los avances recientes en la generación 3D a partir de una sola imagen destacan la importancia de la coherencia multi-vista, aprovechando conocimientos previos en 3D de modelos de difusión a gran escala preentrenados con imágenes a escala de Internet. Sin embargo, el aspecto de la diversidad en vistas novedosas sigue siendo poco explorado en el panorama de investigación debido a la ambigüedad en la conversión de una imagen 2D en contenido 3D, donde pueden surgir numerosas formas potenciales. Aquí, nuestro objetivo es abordar esta brecha de investigación al considerar simultáneamente tanto la consistencia como la diversidad. No obstante, lograr un equilibrio entre estos dos aspectos representa un desafío considerable debido a sus inherentes compensaciones. Este trabajo presenta HarmonyView, una técnica de muestreo de difusión simple pero efectiva, capaz de descomponer dos aspectos intrincados en la generación 3D a partir de una sola imagen: consistencia y diversidad. Este enfoque abre el camino para una exploración más matizada de estas dos dimensiones críticas dentro del proceso de muestreo. Además, proponemos una nueva métrica de evaluación basada en los codificadores de imagen y texto de CLIP para evaluar de manera integral la diversidad de las vistas generadas, la cual se alinea estrechamente con los juicios de evaluadores humanos. En los experimentos, HarmonyView logra un equilibrio armonioso, demostrando un escenario de beneficio mutuo en consistencia y diversidad.

English

Recent progress in single-image 3D generation highlights the importance of multi-view coherency, leveraging 3D priors from large-scale diffusion models pretrained on Internet-scale images. However, the aspect of novel-view diversity remains underexplored within the research landscape due to the ambiguity in converting a 2D image into 3D content, where numerous potential shapes can emerge. Here, we aim to address this research gap by simultaneously addressing both consistency and diversity. Yet, striking a balance between these two aspects poses a considerable challenge due to their inherent trade-offs. This work introduces HarmonyView, a simple yet effective diffusion sampling technique adept at decomposing two intricate aspects in single-image 3D generation: consistency and diversity. This approach paves the way for a more nuanced exploration of the two critical dimensions within the sampling process. Moreover, we propose a new evaluation metric based on CLIP image and text encoders to comprehensively assess the diversity of the generated views, which closely aligns with human evaluators' judgments. In experiments, HarmonyView achieves a harmonious balance, demonstrating a win-win scenario in both consistency and diversity.

HarmonyView: Armonizando Consistencia y Diversidad en la Generación 3D a partir de una Imagen

HarmonyView: Harmonizing Consistency and Diversity in One-Image-to-3D

Resumen

Support