ChatPaper.aiChatPaper

Стабильное дистилляционное формирование оценок для высококачественной 3D-генерации

Stable Score Distillation for High-Quality 3D Generation

December 14, 2023
Авторы: Boshi Tang, Jianan Wang, Zhiyong Wu, Lei Zhang
cs.AI

Аннотация

Метод Score Distillation Sampling (SDS) продемонстрировал выдающиеся результаты в условной генерации 3D-контента. Однако полное понимание формулировки SDS до сих пор отсутствует, что сдерживает развитие 3D-генерации. В данной работе мы предлагаем интерпретацию SDS как комбинации трех функциональных компонентов: терминов, отвечающих за разделение мод, поиск мод и уменьшение дисперсии, и анализируем свойства каждого из них. Мы показываем, что такие проблемы, как излишняя сглаженность и насыщенность цветов, возникают из-за внутренних недостатков терминов супервизии, и выявляем, что введенный SDS термин уменьшения дисперсии является субоптимальным. Кроме того, мы проливаем свет на использование большого масштаба Classifier-Free Guidance (CFG) для 3D-генерации. На основе проведенного анализа мы предлагаем простой, но эффективный подход под названием Stable Score Distillation (SSD), который стратегически организует каждый термин для генерации высококачественного 3D-контента. Многочисленные эксперименты подтверждают эффективность нашего подхода, демонстрируя его способность создавать высококачественный 3D-контент без проблем, таких как излишняя сглаженность и перенасыщенность, даже при низких значениях CFG и использовании наиболее сложного представления NeRF.
English
Score Distillation Sampling (SDS) has exhibited remarkable performance in conditional 3D content generation. However, a comprehensive understanding of the SDS formulation is still lacking, hindering the development of 3D generation. In this work, we present an interpretation of SDS as a combination of three functional components: mode-disengaging, mode-seeking and variance-reducing terms, and analyze the properties of each. We show that problems such as over-smoothness and color-saturation result from the intrinsic deficiency of the supervision terms and reveal that the variance-reducing term introduced by SDS is sub-optimal. Additionally, we shed light on the adoption of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the analysis, we propose a simple yet effective approach named Stable Score Distillation (SSD) which strategically orchestrates each term for high-quality 3D generation. Extensive experiments validate the efficacy of our approach, demonstrating its ability to generate high-fidelity 3D content without succumbing to issues such as over-smoothness and over-saturation, even under low CFG conditions with the most challenging NeRF representation.
PDF102December 15, 2024