ChatPaper.aiChatPaper

HarmonyView: Het harmoniseren van consistentie en diversiteit in One-Image-to-3D

HarmonyView: Harmonizing Consistency and Diversity in One-Image-to-3D

December 26, 2023
Auteurs: Sangmin Woo, Byeongjun Park, Hyojun Go, Jin-Young Kim, Changick Kim
cs.AI

Samenvatting

Recente vooruitgang in 3D-generatie op basis van één afbeelding benadrukt het belang van multi-view coherentie, waarbij gebruik wordt gemaakt van 3D-priors uit grootschalige diffusiemodellen die vooraf zijn getraind op internet-schaal afbeeldingen. Het aspect van novel-view diversiteit blijft echter onderbelicht binnen het onderzoekslandschap vanwege de ambiguïteit bij het omzetten van een 2D-afbeelding naar 3D-inhoud, waarbij tal van mogelijke vormen kunnen ontstaan. Hier streven we ernaar om deze onderzoekskloof te dichten door zowel consistentie als diversiteit tegelijkertijd aan te pakken. Het vinden van een balans tussen deze twee aspecten vormt echter een aanzienlijke uitdaging vanwege hun inherente afwegingen. Dit werk introduceert HarmonyView, een eenvoudige maar effectieve diffusie-steekproeftechniek die bedreven is in het ontleden van twee complexe aspecten in 3D-generatie op basis van één afbeelding: consistentie en diversiteit. Deze aanpak opent de weg voor een meer genuanceerde verkenning van deze twee kritieke dimensies binnen het steekproefproces. Bovendien stellen we een nieuwe evaluatiemetriek voor, gebaseerd op CLIP-afbeelding- en tekstencoders, om de diversiteit van de gegenereerde views uitgebreid te beoordelen, wat nauw aansluit bij de beoordelingen van menselijke evaluatoren. In experimenten bereikt HarmonyView een harmonieuze balans, wat een win-winscenario demonstreert op het gebied van zowel consistentie als diversiteit.
English
Recent progress in single-image 3D generation highlights the importance of multi-view coherency, leveraging 3D priors from large-scale diffusion models pretrained on Internet-scale images. However, the aspect of novel-view diversity remains underexplored within the research landscape due to the ambiguity in converting a 2D image into 3D content, where numerous potential shapes can emerge. Here, we aim to address this research gap by simultaneously addressing both consistency and diversity. Yet, striking a balance between these two aspects poses a considerable challenge due to their inherent trade-offs. This work introduces HarmonyView, a simple yet effective diffusion sampling technique adept at decomposing two intricate aspects in single-image 3D generation: consistency and diversity. This approach paves the way for a more nuanced exploration of the two critical dimensions within the sampling process. Moreover, we propose a new evaluation metric based on CLIP image and text encoders to comprehensively assess the diversity of the generated views, which closely aligns with human evaluators' judgments. In experiments, HarmonyView achieves a harmonious balance, demonstrating a win-win scenario in both consistency and diversity.
PDF122February 8, 2026