ChatPaper.aiChatPaper

テキストから3D生成のためのスコア蒸留におけるモード崩壊の抑制

Taming Mode Collapse in Score Distillation for Text-to-3D Generation

December 31, 2023
著者: Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
cs.AI

要旨

テキストから3D生成におけるスコア蒸留の顕著な性能にもかかわらず、このような技術は視点の不整合問題、いわゆる「Janus」アーティファクトに悩まされることで知られています。これは、生成されたオブジェクトが複数の正面を持つことで各視点を偽装する現象です。経験的に有効な手法がスコアのバイアス除去やプロンプトエンジニアリングを通じてこの問題にアプローチしてきたものの、この問題を説明し解決するためのより厳密な視点は未だに確立されていません。本論文では、既存のスコア蒸留ベースのテキストから3D生成フレームワークが各視点で独立して最尤推定を行うことで退化し、結果としてモード崩壊問題に陥り、実践的にはJanusアーティファクトとして現れることを明らかにします。モード崩壊を抑制するために、レンダリングされた画像の分布に対応する変分目的関数にエントロピー項を再導入することでスコア蒸留を改善します。エントロピーを最大化することで、生成された3Dアセットにおける異なる視点間の多様性が促進され、Janus問題が緩和されます。この新しい目的関数に基づいて、Entropic Score Distillation (ESD) と呼ばれる新しい3Dスコア蒸留の更新規則を導出します。理論的に、ESDは変分スコア蒸留に対して分類器不要ガイダンスのトリックを採用するだけで簡略化および実装できることを明らかにします。非常に単純ではありますが、我々の広範な実験は、ESDがスコア蒸留におけるJanusアーティファクトの効果的な治療法となり得ることを成功裏に実証しています。
English
Despite the remarkable performance of score distillation in text-to-3D generation, such techniques notoriously suffer from view inconsistency issues, also known as "Janus" artifact, where the generated objects fake each view with multiple front faces. Although empirically effective methods have approached this problem via score debiasing or prompt engineering, a more rigorous perspective to explain and tackle this problem remains elusive. In this paper, we reveal that the existing score distillation-based text-to-3D generation frameworks degenerate to maximal likelihood seeking on each view independently and thus suffer from the mode collapse problem, manifesting as the Janus artifact in practice. To tame mode collapse, we improve score distillation by re-establishing in entropy term in the corresponding variational objective, which is applied to the distribution of rendered images. Maximizing the entropy encourages diversity among different views in generated 3D assets, thereby mitigating the Janus problem. Based on this new objective, we derive a new update rule for 3D score distillation, dubbed Entropic Score Distillation (ESD). We theoretically reveal that ESD can be simplified and implemented by just adopting the classifier-free guidance trick upon variational score distillation. Although embarrassingly straightforward, our extensive experiments successfully demonstrate that ESD can be an effective treatment for Janus artifacts in score distillation.
PDF100December 15, 2024