ChatPaper.aiChatPaper

Sherpa3D: Impulsionando a Geração de Texto para 3D de Alta Fidelidade por meio de um Pré-requisito Grosseiro em 3D

Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior

December 11, 2023
Autores: Fangfu Liu, Diankun Wu, Yi Wei, Yongming Rao, Yueqi Duan
cs.AI

Resumo

Recentemente, a criação de conteúdo 3D a partir de prompts de texto demonstrou progressos notáveis ao utilizar modelos de difusão 2D e 3D. Embora os modelos de difusão 3D garantam uma excelente consistência multi-visual, sua capacidade de gerar ativos 3D de alta qualidade e diversificados é limitada pela escassez de dados 3D. Em contraste, os modelos de difusão 2D adotam uma abordagem de destilação que alcança uma generalização excelente e detalhes ricos sem a necessidade de dados 3D. No entanto, os métodos de elevação 2D sofrem com uma ambiguidade inerente de visão agnóstica, levando a sérios problemas de multi-face Janus, onde os prompts de texto não fornecem orientação suficiente para aprender resultados 3D coerentes. Em vez de retreinar um modelo dispendioso que seja consciente do ponto de vista, estudamos como explorar plenamente o conhecimento 3D grosseiro de fácil acesso para aprimorar os prompts e guiar a otimização de elevação 2D para refinamento. Neste artigo, propomos o Sherpa3D, um novo framework de texto para 3D que alcança alta fidelidade, generalizabilidade e consistência geométrica simultaneamente. Especificamente, projetamos um par de estratégias de orientação derivadas do conhecimento 3D grosseiro gerado pelo modelo de difusão 3D: uma orientação estrutural para fidelidade geométrica e uma orientação semântica para coerência 3D. Empregando esses dois tipos de orientação, o modelo de difusão 2D enriquece o conteúdo 3D com resultados diversificados e de alta qualidade. Experimentos extensivos mostram a superioridade do nosso Sherpa3D em relação aos métodos state-of-the-art de texto para 3D em termos de qualidade e consistência 3D.
English
Recently, 3D content creation from text prompts has demonstrated remarkable progress by utilizing 2D and 3D diffusion models. While 3D diffusion models ensure great multi-view consistency, their ability to generate high-quality and diverse 3D assets is hindered by the limited 3D data. In contrast, 2D diffusion models find a distillation approach that achieves excellent generalization and rich details without any 3D data. However, 2D lifting methods suffer from inherent view-agnostic ambiguity thereby leading to serious multi-face Janus issues, where text prompts fail to provide sufficient guidance to learn coherent 3D results. Instead of retraining a costly viewpoint-aware model, we study how to fully exploit easily accessible coarse 3D knowledge to enhance the prompts and guide 2D lifting optimization for refinement. In this paper, we propose Sherpa3D, a new text-to-3D framework that achieves high-fidelity, generalizability, and geometric consistency simultaneously. Specifically, we design a pair of guiding strategies derived from the coarse 3D prior generated by the 3D diffusion model: a structural guidance for geometric fidelity and a semantic guidance for 3D coherence. Employing the two types of guidance, the 2D diffusion model enriches the 3D content with diversified and high-quality results. Extensive experiments show the superiority of our Sherpa3D over the state-of-the-art text-to-3D methods in terms of quality and 3D consistency.
PDF240February 8, 2026