HarmonyView : Harmoniser Cohérence et Diversité dans la Transformation d'une Image en 3D
HarmonyView: Harmonizing Consistency and Diversity in One-Image-to-3D
December 26, 2023
Auteurs: Sangmin Woo, Byeongjun Park, Hyojun Go, Jin-Young Kim, Changick Kim
cs.AI
Résumé
Les progrès récents dans la génération 3D à partir d'une seule image mettent en lumière l'importance de la cohérence multi-vues, en exploitant des connaissances préalables 3D issues de modèles de diffusion à grande échelle pré-entraînés sur des images à l'échelle d'Internet. Cependant, l'aspect de la diversité des nouvelles vues reste peu exploré dans le paysage de la recherche en raison de l'ambiguïté inhérente à la conversion d'une image 2D en contenu 3D, où de nombreuses formes potentielles peuvent émerger. Ici, nous visons à combler cette lacune de recherche en abordant simultanément à la fois la cohérence et la diversité. Pourtant, trouver un équilibre entre ces deux aspects représente un défi considérable en raison de leurs compromis inhérents. Ce travail présente HarmonyView, une technique d'échantillonnage par diffusion simple mais efficace, capable de décomposer deux aspects complexes dans la génération 3D à partir d'une seule image : la cohérence et la diversité. Cette approche ouvre la voie à une exploration plus nuancée de ces deux dimensions critiques dans le processus d'échantillonnage. De plus, nous proposons une nouvelle métrique d'évaluation basée sur les encodeurs d'images et de texte CLIP pour évaluer de manière exhaustive la diversité des vues générées, qui s'aligne étroitement avec les jugements des évaluateurs humains. Dans les expériences, HarmonyView atteint un équilibre harmonieux, démontrant un scénario gagnant-gagnant à la fois en cohérence et en diversité.
English
Recent progress in single-image 3D generation highlights the importance of
multi-view coherency, leveraging 3D priors from large-scale diffusion models
pretrained on Internet-scale images. However, the aspect of novel-view
diversity remains underexplored within the research landscape due to the
ambiguity in converting a 2D image into 3D content, where numerous potential
shapes can emerge. Here, we aim to address this research gap by simultaneously
addressing both consistency and diversity. Yet, striking a balance between
these two aspects poses a considerable challenge due to their inherent
trade-offs. This work introduces HarmonyView, a simple yet effective diffusion
sampling technique adept at decomposing two intricate aspects in single-image
3D generation: consistency and diversity. This approach paves the way for a
more nuanced exploration of the two critical dimensions within the sampling
process. Moreover, we propose a new evaluation metric based on CLIP image and
text encoders to comprehensively assess the diversity of the generated views,
which closely aligns with human evaluators' judgments. In experiments,
HarmonyView achieves a harmonious balance, demonstrating a win-win scenario in
both consistency and diversity.