Sherpa3D: Verbetering van hoogwaardige tekst-naar-3D-generatie via een grove 3D-prior
Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior
December 11, 2023
Auteurs: Fangfu Liu, Diankun Wu, Yi Wei, Yongming Rao, Yueqi Duan
cs.AI
Samenvatting
Onlangs heeft het creëren van 3D-inhoud op basis van tekstprompts aanzienlijke vooruitgang geboekt door het gebruik van 2D- en 3D-diffusiemodellen. Hoewel 3D-diffusiemodellen een grote consistentie tussen meerdere aanzichten garanderen, wordt hun vermogen om hoogwaardige en diverse 3D-assets te genereren belemmerd door de beperkte beschikbaarheid van 3D-data. Daarentegen vinden 2D-diffusiemodellen een destillatiebenadering die uitstekende generalisatie en rijke details bereikt zonder enige 3D-data. Echter, 2D-liftmethoden kampen met inherente ambiguïteit die onafhankelijk is van het aanzicht, wat leidt tot ernstige multi-face Janus-problemen, waarbij tekstprompts onvoldoende richting bieden om coherente 3D-resultaten te leren. In plaats van een kostbaar model te hertrainen dat rekening houdt met het aanzicht, onderzoeken we hoe we gemakkelijk toegankelijke ruwe 3D-kennis volledig kunnen benutten om de prompts te versterken en de 2D-liftoptimalisatie te begeleiden voor verfijning. In dit artikel stellen we Sherpa3D voor, een nieuw tekst-naar-3D-framework dat tegelijkertijd hoge kwaliteit, generaliseerbaarheid en geometrische consistentie bereikt. Specifiek ontwerpen we een paar begeleidingsstrategieën die voortkomen uit de ruwe 3D-voorkennis gegenereerd door het 3D-diffusiemodel: een structurele begeleiding voor geometrische nauwkeurigheid en een semantische begeleiding voor 3D-samenhang. Door deze twee soorten begeleiding te gebruiken, verrijkt het 2D-diffusiemodel de 3D-inhoud met gevarieerde en hoogwaardige resultaten. Uitgebreide experimenten tonen de superioriteit van onze Sherpa3D aan ten opzichte van de state-of-the-art tekst-naar-3D-methoden wat betreft kwaliteit en 3D-consistentie.
English
Recently, 3D content creation from text prompts has demonstrated remarkable
progress by utilizing 2D and 3D diffusion models. While 3D diffusion models
ensure great multi-view consistency, their ability to generate high-quality and
diverse 3D assets is hindered by the limited 3D data. In contrast, 2D diffusion
models find a distillation approach that achieves excellent generalization and
rich details without any 3D data. However, 2D lifting methods suffer from
inherent view-agnostic ambiguity thereby leading to serious multi-face Janus
issues, where text prompts fail to provide sufficient guidance to learn
coherent 3D results. Instead of retraining a costly viewpoint-aware model, we
study how to fully exploit easily accessible coarse 3D knowledge to enhance the
prompts and guide 2D lifting optimization for refinement. In this paper, we
propose Sherpa3D, a new text-to-3D framework that achieves high-fidelity,
generalizability, and geometric consistency simultaneously. Specifically, we
design a pair of guiding strategies derived from the coarse 3D prior generated
by the 3D diffusion model: a structural guidance for geometric fidelity and a
semantic guidance for 3D coherence. Employing the two types of guidance, the 2D
diffusion model enriches the 3D content with diversified and high-quality
results. Extensive experiments show the superiority of our Sherpa3D over the
state-of-the-art text-to-3D methods in terms of quality and 3D consistency.