ChatPaper.aiChatPaper

Distilación de Puntuación Estable para la Generación de Modelos 3D de Alta Calidad

Stable Score Distillation for High-Quality 3D Generation

December 14, 2023
Autores: Boshi Tang, Jianan Wang, Zhiyong Wu, Lei Zhang
cs.AI

Resumen

El Muestreo por Destilación de Puntuaciones (SDS, por sus siglas en inglés) ha demostrado un rendimiento notable en la generación condicional de contenido 3D. Sin embargo, aún falta una comprensión integral de la formulación de SDS, lo que dificulta el avance en la generación 3D. En este trabajo, presentamos una interpretación de SDS como una combinación de tres componentes funcionales: términos de desvinculación de modos, búsqueda de modos y reducción de varianza, y analizamos las propiedades de cada uno. Mostramos que problemas como la suavización excesiva y la saturación de colores resultan de deficiencias intrínsecas en los términos de supervisión y revelamos que el término de reducción de varianza introducido por SDS es subóptimo. Además, arrojamos luz sobre la adopción de una escala grande de Guía Libre de Clasificador (CFG, por sus siglas en inglés) para la generación 3D. Basándonos en este análisis, proponemos un enfoque simple pero efectivo llamado Destilación de Puntuaciones Estable (SSD, por sus siglas en inglés), que orquesta estratégicamente cada término para lograr una generación 3D de alta calidad. Experimentos exhaustivos validan la eficacia de nuestro enfoque, demostrando su capacidad para generar contenido 3D de alta fidelidad sin sucumbir a problemas como la suavización excesiva o la sobresaturación, incluso en condiciones de CFG baja y utilizando la representación NeRF más desafiante.
English
Score Distillation Sampling (SDS) has exhibited remarkable performance in conditional 3D content generation. However, a comprehensive understanding of the SDS formulation is still lacking, hindering the development of 3D generation. In this work, we present an interpretation of SDS as a combination of three functional components: mode-disengaging, mode-seeking and variance-reducing terms, and analyze the properties of each. We show that problems such as over-smoothness and color-saturation result from the intrinsic deficiency of the supervision terms and reveal that the variance-reducing term introduced by SDS is sub-optimal. Additionally, we shed light on the adoption of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the analysis, we propose a simple yet effective approach named Stable Score Distillation (SSD) which strategically orchestrates each term for high-quality 3D generation. Extensive experiments validate the efficacy of our approach, demonstrating its ability to generate high-fidelity 3D content without succumbing to issues such as over-smoothness and over-saturation, even under low CFG conditions with the most challenging NeRF representation.
PDF102December 15, 2024