Sherpa3D: Улучшение генерации высококачественных 3D-моделей из текста с использованием грубого 3D-приора

Аннотация

В последнее время создание 3D-контента на основе текстовых запросов продемонстрировало значительный прогресс благодаря использованию 2D и 3D диффузионных моделей. Хотя 3D диффузионные модели обеспечивают высокую согласованность между видами, их способность генерировать качественные и разнообразные 3D-ассеты ограничена недостатком 3D-данных. В то же время 2D диффузионные модели используют подход дистилляции, который достигает отличной обобщаемости и богатых деталей без использования каких-либо 3D-данных. Однако методы поднятия 2D-изображений страдают от присущей им неоднозначности, не зависящей от вида, что приводит к серьезным проблемам многоликости (Janus), когда текстовые запросы не могут предоставить достаточные указания для получения согласованных 3D-результатов. Вместо того чтобы переобучать дорогостоящую модель, учитывающую точки зрения, мы исследуем, как полностью использовать легко доступные грубые 3D-знания для улучшения запросов и направления оптимизации поднятия 2D-изображений для уточнения. В данной статье мы предлагаем Sherpa3D — новый фреймворк для преобразования текста в 3D, который одновременно достигает высокой точности, обобщаемости и геометрической согласованности. В частности, мы разрабатываем пару стратегий руководства, основанных на грубом 3D-приоре, сгенерированном 3D диффузионной моделью: структурное руководство для геометрической точности и семантическое руководство для 3D-согласованности. Используя эти два типа руководства, 2D диффузионная модель обогащает 3D-контент разнообразными и качественными результатами. Многочисленные эксперименты демонстрируют превосходство нашего Sherpa3D над современными методами преобразования текста в 3D с точки зрения качества и 3D-согласованности.

English

Recently, 3D content creation from text prompts has demonstrated remarkable progress by utilizing 2D and 3D diffusion models. While 3D diffusion models ensure great multi-view consistency, their ability to generate high-quality and diverse 3D assets is hindered by the limited 3D data. In contrast, 2D diffusion models find a distillation approach that achieves excellent generalization and rich details without any 3D data. However, 2D lifting methods suffer from inherent view-agnostic ambiguity thereby leading to serious multi-face Janus issues, where text prompts fail to provide sufficient guidance to learn coherent 3D results. Instead of retraining a costly viewpoint-aware model, we study how to fully exploit easily accessible coarse 3D knowledge to enhance the prompts and guide 2D lifting optimization for refinement. In this paper, we propose Sherpa3D, a new text-to-3D framework that achieves high-fidelity, generalizability, and geometric consistency simultaneously. Specifically, we design a pair of guiding strategies derived from the coarse 3D prior generated by the 3D diffusion model: a structural guidance for geometric fidelity and a semantic guidance for 3D coherence. Employing the two types of guidance, the 2D diffusion model enriches the 3D content with diversified and high-quality results. Extensive experiments show the superiority of our Sherpa3D over the state-of-the-art text-to-3D methods in terms of quality and 3D consistency.

Sherpa3D: Улучшение генерации высококачественных 3D-моделей из текста с использованием грубого 3D-приора

Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior

Аннотация

Support