HarmonyView: Armonizando Consistencia y Diversidad en la Generación 3D a partir de una Imagen
HarmonyView: Harmonizing Consistency and Diversity in One-Image-to-3D
December 26, 2023
Autores: Sangmin Woo, Byeongjun Park, Hyojun Go, Jin-Young Kim, Changick Kim
cs.AI
Resumen
Los avances recientes en la generación 3D a partir de una sola imagen destacan la importancia de la coherencia multi-vista, aprovechando conocimientos previos en 3D de modelos de difusión a gran escala preentrenados con imágenes a escala de Internet. Sin embargo, el aspecto de la diversidad en vistas novedosas sigue siendo poco explorado en el panorama de investigación debido a la ambigüedad en la conversión de una imagen 2D en contenido 3D, donde pueden surgir numerosas formas potenciales. Aquí, nuestro objetivo es abordar esta brecha de investigación al considerar simultáneamente tanto la consistencia como la diversidad. No obstante, lograr un equilibrio entre estos dos aspectos representa un desafío considerable debido a sus inherentes compensaciones. Este trabajo presenta HarmonyView, una técnica de muestreo de difusión simple pero efectiva, capaz de descomponer dos aspectos intrincados en la generación 3D a partir de una sola imagen: consistencia y diversidad. Este enfoque abre el camino para una exploración más matizada de estas dos dimensiones críticas dentro del proceso de muestreo. Además, proponemos una nueva métrica de evaluación basada en los codificadores de imagen y texto de CLIP para evaluar de manera integral la diversidad de las vistas generadas, la cual se alinea estrechamente con los juicios de evaluadores humanos. En los experimentos, HarmonyView logra un equilibrio armonioso, demostrando un escenario de beneficio mutuo en consistencia y diversidad.
English
Recent progress in single-image 3D generation highlights the importance of
multi-view coherency, leveraging 3D priors from large-scale diffusion models
pretrained on Internet-scale images. However, the aspect of novel-view
diversity remains underexplored within the research landscape due to the
ambiguity in converting a 2D image into 3D content, where numerous potential
shapes can emerge. Here, we aim to address this research gap by simultaneously
addressing both consistency and diversity. Yet, striking a balance between
these two aspects poses a considerable challenge due to their inherent
trade-offs. This work introduces HarmonyView, a simple yet effective diffusion
sampling technique adept at decomposing two intricate aspects in single-image
3D generation: consistency and diversity. This approach paves the way for a
more nuanced exploration of the two critical dimensions within the sampling
process. Moreover, we propose a new evaluation metric based on CLIP image and
text encoders to comprehensively assess the diversity of the generated views,
which closely aligns with human evaluators' judgments. In experiments,
HarmonyView achieves a harmonious balance, demonstrating a win-win scenario in
both consistency and diversity.