Domando o Colapso de Modo na Distilação de Pontuação para Geração de Texto para 3D

Resumo

Apesar do desempenho notável da destilação de pontuação na geração de texto para 3D, essas técnicas são notoriamente afetadas por problemas de inconsistência de visão, também conhecidos como artefato "Janus", onde os objetos gerados simulam cada visão com múltiplas faces frontais. Embora métodos empiricamente eficazes tenham abordado esse problema por meio de correção de viés de pontuação ou engenharia de prompts, uma perspectiva mais rigorosa para explicar e resolver esse problema ainda permanece elusiva. Neste artigo, revelamos que as estruturas existentes de geração de texto para 3D baseadas em destilação de pontuação degeneram para a busca de máxima verossimilhança em cada visão de forma independente e, portanto, sofrem com o problema de colapso de modos, manifestando-se como o artefato Janus na prática. Para controlar o colapso de modos, melhoramos a destilação de pontuação ao restabelecer um termo de entropia no objetivo variacional correspondente, que é aplicado à distribuição de imagens renderizadas. Maximizar a entropia incentiva a diversidade entre diferentes visões nos ativos 3D gerados, mitigando assim o problema Janus. Com base nesse novo objetivo, derivamos uma nova regra de atualização para a destilação de pontuação 3D, denominada Destilação de Pontuação Entrópica (ESD, na sigla em inglês). Teoricamente, revelamos que a ESD pode ser simplificada e implementada simplesmente adotando o truque de orientação sem classificador sobre a destilação de pontuação variacional. Embora seja incrivelmente direta, nossos extensos experimentos demonstram com sucesso que a ESD pode ser um tratamento eficaz para artefatos Janus na destilação de pontuação.

English

Despite the remarkable performance of score distillation in text-to-3D generation, such techniques notoriously suffer from view inconsistency issues, also known as "Janus" artifact, where the generated objects fake each view with multiple front faces. Although empirically effective methods have approached this problem via score debiasing or prompt engineering, a more rigorous perspective to explain and tackle this problem remains elusive. In this paper, we reveal that the existing score distillation-based text-to-3D generation frameworks degenerate to maximal likelihood seeking on each view independently and thus suffer from the mode collapse problem, manifesting as the Janus artifact in practice. To tame mode collapse, we improve score distillation by re-establishing in entropy term in the corresponding variational objective, which is applied to the distribution of rendered images. Maximizing the entropy encourages diversity among different views in generated 3D assets, thereby mitigating the Janus problem. Based on this new objective, we derive a new update rule for 3D score distillation, dubbed Entropic Score Distillation (ESD). We theoretically reveal that ESD can be simplified and implemented by just adopting the classifier-free guidance trick upon variational score distillation. Although embarrassingly straightforward, our extensive experiments successfully demonstrate that ESD can be an effective treatment for Janus artifacts in score distillation.

Domando o Colapso de Modo na Distilação de Pontuação para Geração de Texto para 3D

Taming Mode Collapse in Score Distillation for Text-to-3D Generation

Resumo

Support