Distilación de Puntuación Estable para la Generación de Modelos 3D de Alta Calidad
Stable Score Distillation for High-Quality 3D Generation
December 14, 2023
Autores: Boshi Tang, Jianan Wang, Zhiyong Wu, Lei Zhang
cs.AI
Resumen
El Muestreo por Destilación de Puntuaciones (SDS, por sus siglas en inglés) ha demostrado un rendimiento notable en la generación condicional de contenido 3D. Sin embargo, aún falta una comprensión integral de la formulación de SDS, lo que dificulta el avance en la generación 3D. En este trabajo, presentamos una interpretación de SDS como una combinación de tres componentes funcionales: términos de desvinculación de modos, búsqueda de modos y reducción de varianza, y analizamos las propiedades de cada uno. Mostramos que problemas como la suavización excesiva y la saturación de colores resultan de deficiencias intrínsecas en los términos de supervisión y revelamos que el término de reducción de varianza introducido por SDS es subóptimo. Además, arrojamos luz sobre la adopción de una escala grande de Guía Libre de Clasificador (CFG, por sus siglas en inglés) para la generación 3D. Basándonos en este análisis, proponemos un enfoque simple pero efectivo llamado Destilación de Puntuaciones Estable (SSD, por sus siglas en inglés), que orquesta estratégicamente cada término para lograr una generación 3D de alta calidad. Experimentos exhaustivos validan la eficacia de nuestro enfoque, demostrando su capacidad para generar contenido 3D de alta fidelidad sin sucumbir a problemas como la suavización excesiva o la sobresaturación, incluso en condiciones de CFG baja y utilizando la representación NeRF más desafiante.
English
Score Distillation Sampling (SDS) has exhibited remarkable performance in
conditional 3D content generation. However, a comprehensive understanding of
the SDS formulation is still lacking, hindering the development of 3D
generation. In this work, we present an interpretation of SDS as a combination
of three functional components: mode-disengaging, mode-seeking and
variance-reducing terms, and analyze the properties of each. We show that
problems such as over-smoothness and color-saturation result from the intrinsic
deficiency of the supervision terms and reveal that the variance-reducing term
introduced by SDS is sub-optimal. Additionally, we shed light on the adoption
of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the
analysis, we propose a simple yet effective approach named Stable Score
Distillation (SSD) which strategically orchestrates each term for high-quality
3D generation. Extensive experiments validate the efficacy of our approach,
demonstrating its ability to generate high-fidelity 3D content without
succumbing to issues such as over-smoothness and over-saturation, even under
low CFG conditions with the most challenging NeRF representation.