ChatPaper.aiChatPaper

HarmonyView: 一画像から3Dへの一貫性と多様性の調和

HarmonyView: Harmonizing Consistency and Diversity in One-Image-to-3D

December 26, 2023
著者: Sangmin Woo, Byeongjun Park, Hyojun Go, Jin-Young Kim, Changick Kim
cs.AI

要旨

単一画像からの3D生成における最近の進展は、インターネット規模の画像で事前学習された大規模拡散モデルから得られる3D事前情報を活用した、マルチビュー一貫性の重要性を浮き彫りにしています。しかし、2D画像を3Dコンテンツに変換する際の曖昧さから、多数の潜在的な形状が生じ得るため、新規ビューの多様性という側面は研究領域において未開拓のままです。本研究では、一貫性と多様性の両方を同時に解決することで、この研究ギャップに取り組むことを目指します。ただし、これら2つの側面の間には本質的なトレードオフが存在するため、そのバランスを取ることは大きな課題です。本論文では、HarmonyViewというシンプルでありながら効果的な拡散サンプリング技術を提案します。これは、単一画像3D生成における2つの複雑な側面、すなわち一貫性と多様性を分解するのに適しています。このアプローチにより、サンプリングプロセス内のこれら2つの重要な次元をより細やかに探求する道が開かれます。さらに、生成ビューの多様性を包括的に評価するために、CLIP画像およびテキストエンコーダーに基づく新しい評価指標を提案します。この指標は、人間の評価者の判断と密接に一致します。実験では、HarmonyViewが調和の取れたバランスを達成し、一貫性と多様性の両方においてウィンウィンのシナリオを示しています。
English
Recent progress in single-image 3D generation highlights the importance of multi-view coherency, leveraging 3D priors from large-scale diffusion models pretrained on Internet-scale images. However, the aspect of novel-view diversity remains underexplored within the research landscape due to the ambiguity in converting a 2D image into 3D content, where numerous potential shapes can emerge. Here, we aim to address this research gap by simultaneously addressing both consistency and diversity. Yet, striking a balance between these two aspects poses a considerable challenge due to their inherent trade-offs. This work introduces HarmonyView, a simple yet effective diffusion sampling technique adept at decomposing two intricate aspects in single-image 3D generation: consistency and diversity. This approach paves the way for a more nuanced exploration of the two critical dimensions within the sampling process. Moreover, we propose a new evaluation metric based on CLIP image and text encoders to comprehensively assess the diversity of the generated views, which closely aligns with human evaluators' judgments. In experiments, HarmonyView achieves a harmonious balance, demonstrating a win-win scenario in both consistency and diversity.
PDF132December 15, 2024