Distilação Estável de Pontuação para Geração de Alta Qualidade em 3D

Resumo

A Amostragem por Destilação de Pontuação (Score Distillation Sampling - SDS) tem demonstrado desempenho notável na geração condicional de conteúdo 3D. No entanto, uma compreensão abrangente da formulação do SDS ainda é insuficiente, o que dificulta o avanço na geração 3D. Neste trabalho, apresentamos uma interpretação do SDS como uma combinação de três componentes funcionais: termos de desengajamento de modos, busca de modos e redução de variância, e analisamos as propriedades de cada um. Mostramos que problemas como suavização excessiva e saturação de cores resultam da deficiência intrínseca dos termos de supervisão e revelamos que o termo de redução de variância introduzido pelo SDS é subótimo. Além disso, esclarecemos a adoção de uma escala grande de Orientação Livre de Classificador (Classifier-Free Guidance - CFG) para a geração 3D. Com base na análise, propomos uma abordagem simples, porém eficaz, denominada Destilação de Pontuação Estável (Stable Score Distillation - SSD), que orquestra estrategicamente cada termo para a geração de conteúdo 3D de alta qualidade. Experimentos extensivos validam a eficácia da nossa abordagem, demonstrando sua capacidade de gerar conteúdo 3D de alta fidelidade sem sucumbir a problemas como suavização excessiva e saturação, mesmo sob condições de baixa CFG com a representação NeRF mais desafiadora.

English

Score Distillation Sampling (SDS) has exhibited remarkable performance in conditional 3D content generation. However, a comprehensive understanding of the SDS formulation is still lacking, hindering the development of 3D generation. In this work, we present an interpretation of SDS as a combination of three functional components: mode-disengaging, mode-seeking and variance-reducing terms, and analyze the properties of each. We show that problems such as over-smoothness and color-saturation result from the intrinsic deficiency of the supervision terms and reveal that the variance-reducing term introduced by SDS is sub-optimal. Additionally, we shed light on the adoption of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the analysis, we propose a simple yet effective approach named Stable Score Distillation (SSD) which strategically orchestrates each term for high-quality 3D generation. Extensive experiments validate the efficacy of our approach, demonstrating its ability to generate high-fidelity 3D content without succumbing to issues such as over-smoothness and over-saturation, even under low CFG conditions with the most challenging NeRF representation.

Distilação Estável de Pontuação para Geração de Alta Qualidade em 3D

Stable Score Distillation for High-Quality 3D Generation

Resumo

Support