Sherpa3D: Улучшение генерации высококачественных 3D-моделей из текста с использованием грубого 3D-приора
Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior
December 11, 2023
Авторы: Fangfu Liu, Diankun Wu, Yi Wei, Yongming Rao, Yueqi Duan
cs.AI
Аннотация
В последнее время создание 3D-контента на основе текстовых запросов продемонстрировало значительный прогресс благодаря использованию 2D и 3D диффузионных моделей. Хотя 3D диффузионные модели обеспечивают высокую согласованность между видами, их способность генерировать качественные и разнообразные 3D-ассеты ограничена недостатком 3D-данных. В то же время 2D диффузионные модели используют подход дистилляции, который достигает отличной обобщаемости и богатых деталей без использования каких-либо 3D-данных. Однако методы поднятия 2D-изображений страдают от присущей им неоднозначности, не зависящей от вида, что приводит к серьезным проблемам многоликости (Janus), когда текстовые запросы не могут предоставить достаточные указания для получения согласованных 3D-результатов. Вместо того чтобы переобучать дорогостоящую модель, учитывающую точки зрения, мы исследуем, как полностью использовать легко доступные грубые 3D-знания для улучшения запросов и направления оптимизации поднятия 2D-изображений для уточнения. В данной статье мы предлагаем Sherpa3D — новый фреймворк для преобразования текста в 3D, который одновременно достигает высокой точности, обобщаемости и геометрической согласованности. В частности, мы разрабатываем пару стратегий руководства, основанных на грубом 3D-приоре, сгенерированном 3D диффузионной моделью: структурное руководство для геометрической точности и семантическое руководство для 3D-согласованности. Используя эти два типа руководства, 2D диффузионная модель обогащает 3D-контент разнообразными и качественными результатами. Многочисленные эксперименты демонстрируют превосходство нашего Sherpa3D над современными методами преобразования текста в 3D с точки зрения качества и 3D-согласованности.
English
Recently, 3D content creation from text prompts has demonstrated remarkable
progress by utilizing 2D and 3D diffusion models. While 3D diffusion models
ensure great multi-view consistency, their ability to generate high-quality and
diverse 3D assets is hindered by the limited 3D data. In contrast, 2D diffusion
models find a distillation approach that achieves excellent generalization and
rich details without any 3D data. However, 2D lifting methods suffer from
inherent view-agnostic ambiguity thereby leading to serious multi-face Janus
issues, where text prompts fail to provide sufficient guidance to learn
coherent 3D results. Instead of retraining a costly viewpoint-aware model, we
study how to fully exploit easily accessible coarse 3D knowledge to enhance the
prompts and guide 2D lifting optimization for refinement. In this paper, we
propose Sherpa3D, a new text-to-3D framework that achieves high-fidelity,
generalizability, and geometric consistency simultaneously. Specifically, we
design a pair of guiding strategies derived from the coarse 3D prior generated
by the 3D diffusion model: a structural guidance for geometric fidelity and a
semantic guidance for 3D coherence. Employing the two types of guidance, the 2D
diffusion model enriches the 3D content with diversified and high-quality
results. Extensive experiments show the superiority of our Sherpa3D over the
state-of-the-art text-to-3D methods in terms of quality and 3D consistency.