Domando o Colapso de Modo na Distilação de Pontuação para Geração de Texto para 3D
Taming Mode Collapse in Score Distillation for Text-to-3D Generation
December 31, 2023
Autores: Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
cs.AI
Resumo
Apesar do desempenho notável da destilação de pontuação na geração de texto para 3D, essas técnicas são notoriamente afetadas por problemas de inconsistência de visão, também conhecidos como artefato "Janus", onde os objetos gerados simulam cada visão com múltiplas faces frontais. Embora métodos empiricamente eficazes tenham abordado esse problema por meio de correção de viés de pontuação ou engenharia de prompts, uma perspectiva mais rigorosa para explicar e resolver esse problema ainda permanece elusiva. Neste artigo, revelamos que as estruturas existentes de geração de texto para 3D baseadas em destilação de pontuação degeneram para a busca de máxima verossimilhança em cada visão de forma independente e, portanto, sofrem com o problema de colapso de modos, manifestando-se como o artefato Janus na prática. Para controlar o colapso de modos, melhoramos a destilação de pontuação ao restabelecer um termo de entropia no objetivo variacional correspondente, que é aplicado à distribuição de imagens renderizadas. Maximizar a entropia incentiva a diversidade entre diferentes visões nos ativos 3D gerados, mitigando assim o problema Janus. Com base nesse novo objetivo, derivamos uma nova regra de atualização para a destilação de pontuação 3D, denominada Destilação de Pontuação Entrópica (ESD, na sigla em inglês). Teoricamente, revelamos que a ESD pode ser simplificada e implementada simplesmente adotando o truque de orientação sem classificador sobre a destilação de pontuação variacional. Embora seja incrivelmente direta, nossos extensos experimentos demonstram com sucesso que a ESD pode ser um tratamento eficaz para artefatos Janus na destilação de pontuação.
English
Despite the remarkable performance of score distillation in text-to-3D
generation, such techniques notoriously suffer from view inconsistency issues,
also known as "Janus" artifact, where the generated objects fake each view with
multiple front faces. Although empirically effective methods have approached
this problem via score debiasing or prompt engineering, a more rigorous
perspective to explain and tackle this problem remains elusive. In this paper,
we reveal that the existing score distillation-based text-to-3D generation
frameworks degenerate to maximal likelihood seeking on each view independently
and thus suffer from the mode collapse problem, manifesting as the Janus
artifact in practice. To tame mode collapse, we improve score distillation by
re-establishing in entropy term in the corresponding variational objective,
which is applied to the distribution of rendered images. Maximizing the entropy
encourages diversity among different views in generated 3D assets, thereby
mitigating the Janus problem. Based on this new objective, we derive a new
update rule for 3D score distillation, dubbed Entropic Score Distillation
(ESD). We theoretically reveal that ESD can be simplified and implemented by
just adopting the classifier-free guidance trick upon variational score
distillation. Although embarrassingly straightforward, our extensive
experiments successfully demonstrate that ESD can be an effective treatment for
Janus artifacts in score distillation.