텍스트-3D 생성에서 스코어 증류를 통한 모드 붕괴 제어
Taming Mode Collapse in Score Distillation for Text-to-3D Generation
December 31, 2023
저자: Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
cs.AI
초록
텍스트에서 3D 생성으로의 점수 증류(score distillation) 기술은 뛰어난 성능을 보이지만, 이러한 기술은 시점 불일치 문제, 즉 "야누스(Janus)" 아티팩트로 잘 알려진 문제를 겪는다. 이 문제는 생성된 객체가 각 시점에서 여러 개의 정면을 가진 것처럼 보이는 현상을 말한다. 경험적으로 효과적인 방법들이 점수 편향 제거(score debiasing)나 프롬프트 엔지니어링을 통해 이 문제에 접근했지만, 이를 설명하고 해결하기 위한 보다 엄밀한 관점은 여전히 부족하다. 본 논문에서는 기존의 점수 증류 기반 텍스트-3D 생성 프레임워크가 각 시점에서 독립적으로 최대 가능도(maximal likelihood)를 추구하도록 퇴화하며, 이로 인해 모드 붕괴(mode collapse) 문제를 겪게 되고, 이는 실제로 야누스 아티팩트로 나타난다는 것을 밝힌다. 모드 붕괴를 제어하기 위해, 우리는 렌더링된 이미지의 분포에 적용되는 해당 변분 목적 함수(variational objective)에 엔트로피 항을 재도입함으로써 점수 증류를 개선한다. 엔트로피를 최대화하면 생성된 3D 자산의 다양한 시점 간 다양성이 촉진되어 야누스 문제를 완화할 수 있다. 이 새로운 목적 함수를 기반으로, 우리는 엔트로피 점수 증류(Entropic Score Distillation, ESD)라는 새로운 3D 점수 증류 업데이트 규칙을 도출한다. 우리는 이론적으로 ESD가 변분 점수 증류(variational score distillation)에 대해 분류기 없는 지도(classifier-free guidance) 트릭을 채택함으로써 단순화되고 구현될 수 있음을 밝힌다. 비록 매우 간단하지만, 우리의 광범위한 실험은 ESD가 점수 증류에서 야누스 아티팩트를 효과적으로 해결할 수 있는 방법임을 성공적으로 입증한다.
English
Despite the remarkable performance of score distillation in text-to-3D
generation, such techniques notoriously suffer from view inconsistency issues,
also known as "Janus" artifact, where the generated objects fake each view with
multiple front faces. Although empirically effective methods have approached
this problem via score debiasing or prompt engineering, a more rigorous
perspective to explain and tackle this problem remains elusive. In this paper,
we reveal that the existing score distillation-based text-to-3D generation
frameworks degenerate to maximal likelihood seeking on each view independently
and thus suffer from the mode collapse problem, manifesting as the Janus
artifact in practice. To tame mode collapse, we improve score distillation by
re-establishing in entropy term in the corresponding variational objective,
which is applied to the distribution of rendered images. Maximizing the entropy
encourages diversity among different views in generated 3D assets, thereby
mitigating the Janus problem. Based on this new objective, we derive a new
update rule for 3D score distillation, dubbed Entropic Score Distillation
(ESD). We theoretically reveal that ESD can be simplified and implemented by
just adopting the classifier-free guidance trick upon variational score
distillation. Although embarrassingly straightforward, our extensive
experiments successfully demonstrate that ESD can be an effective treatment for
Janus artifacts in score distillation.