HarmonyView: 단일 이미지에서 3D로의 일관성과 다양성 조화
HarmonyView: Harmonizing Consistency and Diversity in One-Image-to-3D
December 26, 2023
저자: Sangmin Woo, Byeongjun Park, Hyojun Go, Jin-Young Kim, Changick Kim
cs.AI
초록
단일 이미지 3D 생성 분야의 최근 발전은 인터넷 규모의 이미지로 사전 학습된 대규모 확산 모델의 3D 사전 지식을 활용한 다중 뷰 일관성의 중요성을 강조하고 있습니다. 그러나 2D 이미지를 3D 콘텐츠로 변환하는 과정에서 발생할 수 있는 다양한 잠재적 형태로 인해 새로운 뷰의 다양성 측면은 연구 환경에서 충분히 탐구되지 못했습니다. 본 연구에서는 일관성과 다양성이라는 두 가지 측면을 동시에 해결함으로써 이러한 연구 격차를 해소하고자 합니다. 그러나 이 두 가지 측면 간의 균형을 맞추는 것은 본질적인 상충 관계로 인해 상당한 도전 과제로 남아 있습니다. 이 연구에서는 단일 이미지 3D 생성에서 일관성과 다양성이라는 두 가지 복잡한 측면을 분해하는 데 능숙한 간단하면서도 효과적인 확산 샘플링 기법인 HarmonyView를 소개합니다. 이 접근법은 샘플링 과정 내에서 이 두 가지 중요한 차원을 더욱 세밀하게 탐구할 수 있는 길을 열어줍니다. 또한, 생성된 뷰의 다양성을 종합적으로 평가하기 위해 CLIP 이미지 및 텍스트 인코더를 기반으로 한 새로운 평가 지표를 제안하며, 이는 인간 평가자의 판단과 밀접하게 일치합니다. 실험에서 HarmonyView는 일관성과 다양성 모두에서 윈윈 시나리오를 보여주며 조화로운 균형을 달성했습니다.
English
Recent progress in single-image 3D generation highlights the importance of
multi-view coherency, leveraging 3D priors from large-scale diffusion models
pretrained on Internet-scale images. However, the aspect of novel-view
diversity remains underexplored within the research landscape due to the
ambiguity in converting a 2D image into 3D content, where numerous potential
shapes can emerge. Here, we aim to address this research gap by simultaneously
addressing both consistency and diversity. Yet, striking a balance between
these two aspects poses a considerable challenge due to their inherent
trade-offs. This work introduces HarmonyView, a simple yet effective diffusion
sampling technique adept at decomposing two intricate aspects in single-image
3D generation: consistency and diversity. This approach paves the way for a
more nuanced exploration of the two critical dimensions within the sampling
process. Moreover, we propose a new evaluation metric based on CLIP image and
text encoders to comprehensively assess the diversity of the generated views,
which closely aligns with human evaluators' judgments. In experiments,
HarmonyView achieves a harmonious balance, demonstrating a win-win scenario in
both consistency and diversity.