ChatPaper.aiChatPaper

Domando el colapso modal en la destilación de puntuaciones para la generación de texto a 3D

Taming Mode Collapse in Score Distillation for Text-to-3D Generation

December 31, 2023
Autores: Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
cs.AI

Resumen

A pesar del notable rendimiento de la destilación de puntuaciones en la generación de texto a 3D, estas técnicas son conocidas por sufrir problemas de inconsistencia de vistas, también conocidos como artefactos "Janus", donde los objetos generados simulan cada vista con múltiples caras frontales. Aunque métodos empíricamente efectivos han abordado este problema mediante la eliminación de sesgos en la puntuación o la ingeniería de prompts, una perspectiva más rigurosa para explicar y resolver este problema sigue siendo esquiva. En este artículo, revelamos que los marcos existentes de generación de texto a 3D basados en destilación de puntuaciones degeneran hacia la búsqueda de máxima verosimilitud en cada vista de manera independiente y, por lo tanto, sufren del problema de colapso modal, que se manifiesta como el artefacto Janus en la práctica. Para controlar el colapso modal, mejoramos la destilación de puntuaciones al restablecer un término de entropía en el objetivo variacional correspondiente, que se aplica a la distribución de imágenes renderizadas. Maximizar la entropía fomenta la diversidad entre las diferentes vistas en los activos 3D generados, mitigando así el problema Janus. Basándonos en este nuevo objetivo, derivamos una nueva regla de actualización para la destilación de puntuaciones 3D, denominada Destilación de Puntuaciones Entrópica (ESD, por sus siglas en inglés). Teóricamente, revelamos que ESD puede simplificarse e implementarse simplemente adoptando el truco de guía sin clasificador sobre la destilación de puntuaciones variacional. Aunque sorprendentemente sencillo, nuestros extensos experimentos demuestran con éxito que ESD puede ser un tratamiento efectivo para los artefactos Janus en la destilación de puntuaciones.
English
Despite the remarkable performance of score distillation in text-to-3D generation, such techniques notoriously suffer from view inconsistency issues, also known as "Janus" artifact, where the generated objects fake each view with multiple front faces. Although empirically effective methods have approached this problem via score debiasing or prompt engineering, a more rigorous perspective to explain and tackle this problem remains elusive. In this paper, we reveal that the existing score distillation-based text-to-3D generation frameworks degenerate to maximal likelihood seeking on each view independently and thus suffer from the mode collapse problem, manifesting as the Janus artifact in practice. To tame mode collapse, we improve score distillation by re-establishing in entropy term in the corresponding variational objective, which is applied to the distribution of rendered images. Maximizing the entropy encourages diversity among different views in generated 3D assets, thereby mitigating the Janus problem. Based on this new objective, we derive a new update rule for 3D score distillation, dubbed Entropic Score Distillation (ESD). We theoretically reveal that ESD can be simplified and implemented by just adopting the classifier-free guidance trick upon variational score distillation. Although embarrassingly straightforward, our extensive experiments successfully demonstrate that ESD can be an effective treatment for Janus artifacts in score distillation.
PDF100December 15, 2024