Distilação Estável de Pontuação para Geração de Alta Qualidade em 3D
Stable Score Distillation for High-Quality 3D Generation
December 14, 2023
Autores: Boshi Tang, Jianan Wang, Zhiyong Wu, Lei Zhang
cs.AI
Resumo
A Amostragem por Destilação de Pontuação (Score Distillation Sampling - SDS) tem demonstrado desempenho notável na geração condicional de conteúdo 3D. No entanto, uma compreensão abrangente da formulação do SDS ainda é insuficiente, o que dificulta o avanço na geração 3D. Neste trabalho, apresentamos uma interpretação do SDS como uma combinação de três componentes funcionais: termos de desengajamento de modos, busca de modos e redução de variância, e analisamos as propriedades de cada um. Mostramos que problemas como suavização excessiva e saturação de cores resultam da deficiência intrínseca dos termos de supervisão e revelamos que o termo de redução de variância introduzido pelo SDS é subótimo. Além disso, esclarecemos a adoção de uma escala grande de Orientação Livre de Classificador (Classifier-Free Guidance - CFG) para a geração 3D. Com base na análise, propomos uma abordagem simples, porém eficaz, denominada Destilação de Pontuação Estável (Stable Score Distillation - SSD), que orquestra estrategicamente cada termo para a geração de conteúdo 3D de alta qualidade. Experimentos extensivos validam a eficácia da nossa abordagem, demonstrando sua capacidade de gerar conteúdo 3D de alta fidelidade sem sucumbir a problemas como suavização excessiva e saturação, mesmo sob condições de baixa CFG com a representação NeRF mais desafiadora.
English
Score Distillation Sampling (SDS) has exhibited remarkable performance in
conditional 3D content generation. However, a comprehensive understanding of
the SDS formulation is still lacking, hindering the development of 3D
generation. In this work, we present an interpretation of SDS as a combination
of three functional components: mode-disengaging, mode-seeking and
variance-reducing terms, and analyze the properties of each. We show that
problems such as over-smoothness and color-saturation result from the intrinsic
deficiency of the supervision terms and reveal that the variance-reducing term
introduced by SDS is sub-optimal. Additionally, we shed light on the adoption
of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the
analysis, we propose a simple yet effective approach named Stable Score
Distillation (SSD) which strategically orchestrates each term for high-quality
3D generation. Extensive experiments validate the efficacy of our approach,
demonstrating its ability to generate high-fidelity 3D content without
succumbing to issues such as over-smoothness and over-saturation, even under
low CFG conditions with the most challenging NeRF representation.