PlacidDreamer: Продвижение гармонии в генерации текста в 3D.
PlacidDreamer: Advancing Harmony in Text-to-3D Generation
July 19, 2024
Авторы: Shuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia
cs.AI
Аннотация
Недавно генерация текста в 3D-формат привлекла значительное внимание, что привело к значительному улучшению производительности. Предыдущие методы используют модели генерации 3D с конца в конец для инициализации 3D-гауссиан, модели диффузии с множественным видом для обеспечения согласованности множественных видов и модели диффузии текста в изображение для уточнения деталей с алгоритмами дистилляции оценок. Однако эти методы имеют два ограничения. Во-первых, они сталкиваются с конфликтами в направлениях генерации, поскольку различные модели нацелены на создание разнообразных 3D-активов. Во-вторых, проблема пересыщения в дистилляции оценок не была тщательно исследована и решена. Для преодоления этих ограничений мы предлагаем PlacidDreamer, фреймворк текста в 3D, который гармонизирует инициализацию, генерацию с множественным видом и генерацию с условиями текста с помощью единой модели диффузии с множественным видом, одновременно используя новый алгоритм дистилляции оценок для достижения сбалансированного насыщения. Для объединения направления генерации мы представляем модуль Латентной Плоскости, дружественное к обучению расширение плагина, которое позволяет моделям диффузии с множественным видом обеспечивать быструю реконструкцию геометрии для инициализации и улучшенные многовидовые изображения для персонализации модели диффузии текста в изображение. Для решения проблемы пересыщения мы предлагаем рассматривать дистилляцию оценок как многокритериальную оптимизацию и представляем алгоритм Сбалансированной Дистилляции Оценок, который предлагает оптимальное решение Парето, достигающее богатых деталей и сбалансированного насыщения. Обширные эксперименты подтверждают выдающиеся возможности нашего PlacidDreamer. Код доступен по адресу https://github.com/HansenHuang0823/PlacidDreamer.
English
Recently, text-to-3D generation has attracted significant attention,
resulting in notable performance enhancements. Previous methods utilize
end-to-end 3D generation models to initialize 3D Gaussians, multi-view
diffusion models to enforce multi-view consistency, and text-to-image diffusion
models to refine details with score distillation algorithms. However, these
methods exhibit two limitations. Firstly, they encounter conflicts in
generation directions since different models aim to produce diverse 3D assets.
Secondly, the issue of over-saturation in score distillation has not been
thoroughly investigated and solved. To address these limitations, we propose
PlacidDreamer, a text-to-3D framework that harmonizes initialization,
multi-view generation, and text-conditioned generation with a single multi-view
diffusion model, while simultaneously employing a novel score distillation
algorithm to achieve balanced saturation. To unify the generation direction, we
introduce the Latent-Plane module, a training-friendly plug-in extension that
enables multi-view diffusion models to provide fast geometry reconstruction for
initialization and enhanced multi-view images to personalize the text-to-image
diffusion model. To address the over-saturation problem, we propose to view
score distillation as a multi-objective optimization problem and introduce the
Balanced Score Distillation algorithm, which offers a Pareto Optimal solution
that achieves both rich details and balanced saturation. Extensive experiments
validate the outstanding capabilities of our PlacidDreamer. The code is
available at https://github.com/HansenHuang0823/PlacidDreamer.Summary
AI-Generated Summary