ChatPaper.aiChatPaper

HarmonyView: Harmonizando Consistência e Diversidade em One-Image-to-3D

HarmonyView: Harmonizing Consistency and Diversity in One-Image-to-3D

December 26, 2023
Autores: Sangmin Woo, Byeongjun Park, Hyojun Go, Jin-Young Kim, Changick Kim
cs.AI

Resumo

Os avanços recentes na geração 3D a partir de uma única imagem destacam a importância da coerência multi-visual, aproveitando priors 3D de modelos de difusão em larga escala pré-treinados com imagens da internet. No entanto, o aspecto da diversidade de novas visões permanece pouco explorado no cenário de pesquisa devido à ambiguidade na conversão de uma imagem 2D em conteúdo 3D, onde inúmeras formas potenciais podem surgir. Aqui, buscamos preencher essa lacuna de pesquisa abordando simultaneamente consistência e diversidade. Contudo, equilibrar esses dois aspectos representa um desafio considerável devido aos seus trade-offs inerentes. Este trabalho introduz o HarmonyView, uma técnica de amostragem de difusão simples, porém eficaz, capaz de decompor dois aspectos intrincados na geração 3D a partir de uma única imagem: consistência e diversidade. Essa abordagem abre caminho para uma exploração mais refinada dessas duas dimensões críticas no processo de amostragem. Além disso, propomos uma nova métrica de avaliação baseada nos codificadores de imagem e texto do CLIP para avaliar de forma abrangente a diversidade das visões geradas, que se alinha de perto com os julgamentos de avaliadores humanos. Nos experimentos, o HarmonyView alcança um equilíbrio harmonioso, demonstrando um cenário de ganho mútuo tanto em consistência quanto em diversidade.
English
Recent progress in single-image 3D generation highlights the importance of multi-view coherency, leveraging 3D priors from large-scale diffusion models pretrained on Internet-scale images. However, the aspect of novel-view diversity remains underexplored within the research landscape due to the ambiguity in converting a 2D image into 3D content, where numerous potential shapes can emerge. Here, we aim to address this research gap by simultaneously addressing both consistency and diversity. Yet, striking a balance between these two aspects poses a considerable challenge due to their inherent trade-offs. This work introduces HarmonyView, a simple yet effective diffusion sampling technique adept at decomposing two intricate aspects in single-image 3D generation: consistency and diversity. This approach paves the way for a more nuanced exploration of the two critical dimensions within the sampling process. Moreover, we propose a new evaluation metric based on CLIP image and text encoders to comprehensively assess the diversity of the generated views, which closely aligns with human evaluators' judgments. In experiments, HarmonyView achieves a harmonious balance, demonstrating a win-win scenario in both consistency and diversity.
PDF122February 8, 2026