PlacidDreamer: Продвижение гармонии в генерации текста в 3D.

Аннотация

Недавно генерация текста в 3D-формат привлекла значительное внимание, что привело к значительному улучшению производительности. Предыдущие методы используют модели генерации 3D с конца в конец для инициализации 3D-гауссиан, модели диффузии с множественным видом для обеспечения согласованности множественных видов и модели диффузии текста в изображение для уточнения деталей с алгоритмами дистилляции оценок. Однако эти методы имеют два ограничения. Во-первых, они сталкиваются с конфликтами в направлениях генерации, поскольку различные модели нацелены на создание разнообразных 3D-активов. Во-вторых, проблема пересыщения в дистилляции оценок не была тщательно исследована и решена. Для преодоления этих ограничений мы предлагаем PlacidDreamer, фреймворк текста в 3D, который гармонизирует инициализацию, генерацию с множественным видом и генерацию с условиями текста с помощью единой модели диффузии с множественным видом, одновременно используя новый алгоритм дистилляции оценок для достижения сбалансированного насыщения. Для объединения направления генерации мы представляем модуль Латентной Плоскости, дружественное к обучению расширение плагина, которое позволяет моделям диффузии с множественным видом обеспечивать быструю реконструкцию геометрии для инициализации и улучшенные многовидовые изображения для персонализации модели диффузии текста в изображение. Для решения проблемы пересыщения мы предлагаем рассматривать дистилляцию оценок как многокритериальную оптимизацию и представляем алгоритм Сбалансированной Дистилляции Оценок, который предлагает оптимальное решение Парето, достигающее богатых деталей и сбалансированного насыщения. Обширные эксперименты подтверждают выдающиеся возможности нашего PlacidDreamer. Код доступен по адресу https://github.com/HansenHuang0823/PlacidDreamer.

English

Recently, text-to-3D generation has attracted significant attention, resulting in notable performance enhancements. Previous methods utilize end-to-end 3D generation models to initialize 3D Gaussians, multi-view diffusion models to enforce multi-view consistency, and text-to-image diffusion models to refine details with score distillation algorithms. However, these methods exhibit two limitations. Firstly, they encounter conflicts in generation directions since different models aim to produce diverse 3D assets. Secondly, the issue of over-saturation in score distillation has not been thoroughly investigated and solved. To address these limitations, we propose PlacidDreamer, a text-to-3D framework that harmonizes initialization, multi-view generation, and text-conditioned generation with a single multi-view diffusion model, while simultaneously employing a novel score distillation algorithm to achieve balanced saturation. To unify the generation direction, we introduce the Latent-Plane module, a training-friendly plug-in extension that enables multi-view diffusion models to provide fast geometry reconstruction for initialization and enhanced multi-view images to personalize the text-to-image diffusion model. To address the over-saturation problem, we propose to view score distillation as a multi-objective optimization problem and introduce the Balanced Score Distillation algorithm, which offers a Pareto Optimal solution that achieves both rich details and balanced saturation. Extensive experiments validate the outstanding capabilities of our PlacidDreamer. The code is available at https://github.com/HansenHuang0823/PlacidDreamer.

PlacidDreamer: Продвижение гармонии в генерации текста в 3D.

PlacidDreamer: Advancing Harmony in Text-to-3D Generation

Аннотация

Support