PlacidDreamer: 텍스트-3D 생성에서의 조화로운 발전
PlacidDreamer: Advancing Harmony in Text-to-3D Generation
July 19, 2024
저자: Shuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia
cs.AI
초록
최근 텍스트-3D 생성 기술이 큰 주목을 받으며 성능이 크게 향상되었습니다. 기존 방법들은 종단 간 3D 생성 모델을 사용하여 3D 가우시안을 초기화하고, 다중 뷰 확산 모델을 통해 다중 뷰 일관성을 강화하며, 텍스트-이미지 확산 모델과 점수 증류 알고리즘을 결합해 세부 사항을 정교화했습니다. 그러나 이러한 방법들은 두 가지 한계를 보입니다. 첫째, 서로 다른 모델들이 다양한 3D 자산을 생성하려 하기 때문에 생성 방향에서 충돌이 발생합니다. 둘째, 점수 증류에서의 과포화 문제가 충분히 연구되고 해결되지 않았습니다. 이러한 한계를 해결하기 위해, 우리는 PlacidDreamer를 제안합니다. 이는 단일 다중 뷰 확산 모델을 사용하여 초기화, 다중 뷰 생성, 텍스트 조건 생성 과정을 조화롭게 통합함과 동시에, 균형 잡힌 포화를 달성하기 위한 새로운 점수 증류 알고리즘을 도입한 텍스트-3D 생성 프레임워크입니다. 생성 방향을 통일하기 위해, 우리는 Latent-Plane 모듈을 도입했습니다. 이는 학습에 친화적인 플러그인 확장 기능으로, 다중 뷰 확산 모델이 빠른 기하학적 재구성을 통해 초기화를 지원하고, 텍스트-이미지 확산 모델을 개인화하기 위한 향상된 다중 뷰 이미지를 제공할 수 있게 합니다. 과포화 문제를 해결하기 위해, 우리는 점수 증류를 다목적 최적화 문제로 간주하고 Balanced Score Distillation 알고리즘을 제안했습니다. 이는 풍부한 세부 사항과 균형 잡힌 포화를 동시에 달성하는 파레토 최적 해를 제공합니다. 광범위한 실험을 통해 PlacidDreamer의 뛰어난 성능을 검증했습니다. 코드는 https://github.com/HansenHuang0823/PlacidDreamer에서 확인할 수 있습니다.
English
Recently, text-to-3D generation has attracted significant attention,
resulting in notable performance enhancements. Previous methods utilize
end-to-end 3D generation models to initialize 3D Gaussians, multi-view
diffusion models to enforce multi-view consistency, and text-to-image diffusion
models to refine details with score distillation algorithms. However, these
methods exhibit two limitations. Firstly, they encounter conflicts in
generation directions since different models aim to produce diverse 3D assets.
Secondly, the issue of over-saturation in score distillation has not been
thoroughly investigated and solved. To address these limitations, we propose
PlacidDreamer, a text-to-3D framework that harmonizes initialization,
multi-view generation, and text-conditioned generation with a single multi-view
diffusion model, while simultaneously employing a novel score distillation
algorithm to achieve balanced saturation. To unify the generation direction, we
introduce the Latent-Plane module, a training-friendly plug-in extension that
enables multi-view diffusion models to provide fast geometry reconstruction for
initialization and enhanced multi-view images to personalize the text-to-image
diffusion model. To address the over-saturation problem, we propose to view
score distillation as a multi-objective optimization problem and introduce the
Balanced Score Distillation algorithm, which offers a Pareto Optimal solution
that achieves both rich details and balanced saturation. Extensive experiments
validate the outstanding capabilities of our PlacidDreamer. The code is
available at https://github.com/HansenHuang0823/PlacidDreamer.Summary
AI-Generated Summary