Управление коллапсом мод в процессе дистилляции оценок для генерации 3D-моделей из текста
Taming Mode Collapse in Score Distillation for Text-to-3D Generation
December 31, 2023
Авторы: Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
cs.AI
Аннотация
Несмотря на впечатляющие результаты использования дистилляции оценок в генерации 3D-моделей из текста, такие методы известны проблемами несогласованности видов, также известными как артефакт "Янус", когда сгенерированные объекты создают иллюзию нескольких фронтальных сторон для каждого ракурса. Хотя эмпирически эффективные методы пытались решить эту проблему через устранение смещения оценок или инженерное проектирование подсказок, более строгий подход для объяснения и решения этой проблемы остается неуловимым. В данной статье мы показываем, что существующие фреймворки генерации 3D-моделей из текста на основе дистилляции оценок сводятся к независимому поиску максимального правдоподобия для каждого ракурса, что приводит к проблеме коллапса мод, проявляющейся на практике как артефакт "Янус". Для устранения коллапса мод мы улучшаем дистилляцию оценок, восстанавливая энтропийный член в соответствующем вариационном целевом функционале, который применяется к распределению рендеренных изображений. Максимизация энтропии способствует разнообразию между различными ракурсами в генерируемых 3D-активах, тем самым смягчая проблему "Януса". На основе этого нового целевого функционала мы выводим новое правило обновления для дистилляции 3D-оценок, названное Энтропийной Дистилляцией Оценок (ЭДО). Теоретически мы показываем, что ЭДО может быть упрощена и реализована путем применения метода классификатор-фри гида к вариационной дистилляции оценок. Хотя этот подход кажется невероятно простым, наши обширные эксперименты успешно демонстрируют, что ЭДО может быть эффективным средством для устранения артефактов "Янус" в дистилляции оценок.
English
Despite the remarkable performance of score distillation in text-to-3D
generation, such techniques notoriously suffer from view inconsistency issues,
also known as "Janus" artifact, where the generated objects fake each view with
multiple front faces. Although empirically effective methods have approached
this problem via score debiasing or prompt engineering, a more rigorous
perspective to explain and tackle this problem remains elusive. In this paper,
we reveal that the existing score distillation-based text-to-3D generation
frameworks degenerate to maximal likelihood seeking on each view independently
and thus suffer from the mode collapse problem, manifesting as the Janus
artifact in practice. To tame mode collapse, we improve score distillation by
re-establishing in entropy term in the corresponding variational objective,
which is applied to the distribution of rendered images. Maximizing the entropy
encourages diversity among different views in generated 3D assets, thereby
mitigating the Janus problem. Based on this new objective, we derive a new
update rule for 3D score distillation, dubbed Entropic Score Distillation
(ESD). We theoretically reveal that ESD can be simplified and implemented by
just adopting the classifier-free guidance trick upon variational score
distillation. Although embarrassingly straightforward, our extensive
experiments successfully demonstrate that ESD can be an effective treatment for
Janus artifacts in score distillation.