HarmonyView: Harmonisierung von Konsistenz und Vielfalt in der Einzelbild-zu-3D-Erstellung
HarmonyView: Harmonizing Consistency and Diversity in One-Image-to-3D
December 26, 2023
Autoren: Sangmin Woo, Byeongjun Park, Hyojun Go, Jin-Young Kim, Changick Kim
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Einzelbild-3D-Generierung unterstreichen die Bedeutung von Multi-View-Kohärenz, wobei 3D-Priors aus großskaligen Diffusionsmodellen genutzt werden, die auf Internet-großen Bilddatensätzen vortrainiert wurden. Der Aspekt der Neuansichtsvielfalt bleibt jedoch im Forschungsumfeld weitgehend unerforscht, was auf die Mehrdeutigkeit bei der Umwandlung eines 2D-Bildes in 3D-Inhalte zurückzuführen ist, bei der zahlreiche mögliche Formen entstehen können. Hier zielen wir darauf ab, diese Forschungslücke zu schließen, indem wir sowohl Konsistenz als auch Vielfalt gleichzeitig adressieren. Dennoch stellt das Erreichen eines Gleichgewichts zwischen diesen beiden Aspekten eine erhebliche Herausforderung dar, da sie inhärente Zielkonflikte aufweisen. Diese Arbeit stellt HarmonyView vor, eine einfache, aber effektive Diffusions-Sampling-Technik, die geschickt zwei komplexe Aspekte in der Einzelbild-3D-Generierung aufschlüsselt: Konsistenz und Vielfalt. Dieser Ansatz ebnet den Weg für eine differenziertere Untersuchung dieser beiden kritischen Dimensionen innerhalb des Sampling-Prozesses. Darüber hinaus schlagen wir eine neue Bewertungsmetrik basierend auf CLIP-Bild- und Text-Encodern vor, um die Vielfalt der generierten Ansichten umfassend zu bewerten, die eng mit den Urteilen menschlicher Bewerter übereinstimmt. In Experimenten erreicht HarmonyView eine harmonische Balance und demonstriert eine Win-Win-Situation in Bezug auf sowohl Konsistenz als auch Vielfalt.
English
Recent progress in single-image 3D generation highlights the importance of
multi-view coherency, leveraging 3D priors from large-scale diffusion models
pretrained on Internet-scale images. However, the aspect of novel-view
diversity remains underexplored within the research landscape due to the
ambiguity in converting a 2D image into 3D content, where numerous potential
shapes can emerge. Here, we aim to address this research gap by simultaneously
addressing both consistency and diversity. Yet, striking a balance between
these two aspects poses a considerable challenge due to their inherent
trade-offs. This work introduces HarmonyView, a simple yet effective diffusion
sampling technique adept at decomposing two intricate aspects in single-image
3D generation: consistency and diversity. This approach paves the way for a
more nuanced exploration of the two critical dimensions within the sampling
process. Moreover, we propose a new evaluation metric based on CLIP image and
text encoders to comprehensively assess the diversity of the generated views,
which closely aligns with human evaluators' judgments. In experiments,
HarmonyView achieves a harmonious balance, demonstrating a win-win scenario in
both consistency and diversity.