Sherpa3D: Potenziamento della generazione testo-3D ad alta fedeltà tramite un priore 3D approssimato

Abstract

Recentemente, la creazione di contenuti 3D a partire da prompt testuali ha dimostrato progressi significativi grazie all'utilizzo di modelli di diffusione 2D e 3D. Mentre i modelli di diffusione 3D garantiscono un'eccellente coerenza multi-vista, la loro capacità di generare asset 3D di alta qualità e diversificati è limitata dalla scarsità di dati 3D. Al contrario, i modelli di diffusione 2D adottano un approccio di distillazione che raggiunge un'eccellente generalizzazione e dettagli ricchi senza alcun dato 3D. Tuttavia, i metodi di sollevamento 2D soffrono di un'ambiguità intrinseca indipendente dalla vista, portando a seri problemi di multi-faccia Janus, in cui i prompt testuali non forniscono una guida sufficiente per apprendere risultati 3D coerenti. Invece di riaddestrare un costoso modello consapevole del punto di vista, studiamo come sfruttare appieno una conoscenza 3D approssimata facilmente accessibile per migliorare i prompt e guidare l'ottimizzazione del sollevamento 2D per il perfezionamento. In questo articolo, proponiamo Sherpa3D, un nuovo framework text-to-3D che raggiunge simultaneamente alta fedeltà, generalizzabilità e coerenza geometrica. Nello specifico, progettiamo una coppia di strategie di guida derivate dal prior 3D approssimato generato dal modello di diffusione 3D: una guida strutturale per la fedeltà geometrica e una guida semantica per la coerenza 3D. Utilizzando questi due tipi di guida, il modello di diffusione 2D arricchisce il contenuto 3D con risultati diversificati e di alta qualità. Esperimenti estensivi dimostrano la superiorità del nostro Sherpa3D rispetto ai metodi text-to-3D all'avanguardia in termini di qualità e coerenza 3D.

English

Recently, 3D content creation from text prompts has demonstrated remarkable progress by utilizing 2D and 3D diffusion models. While 3D diffusion models ensure great multi-view consistency, their ability to generate high-quality and diverse 3D assets is hindered by the limited 3D data. In contrast, 2D diffusion models find a distillation approach that achieves excellent generalization and rich details without any 3D data. However, 2D lifting methods suffer from inherent view-agnostic ambiguity thereby leading to serious multi-face Janus issues, where text prompts fail to provide sufficient guidance to learn coherent 3D results. Instead of retraining a costly viewpoint-aware model, we study how to fully exploit easily accessible coarse 3D knowledge to enhance the prompts and guide 2D lifting optimization for refinement. In this paper, we propose Sherpa3D, a new text-to-3D framework that achieves high-fidelity, generalizability, and geometric consistency simultaneously. Specifically, we design a pair of guiding strategies derived from the coarse 3D prior generated by the 3D diffusion model: a structural guidance for geometric fidelity and a semantic guidance for 3D coherence. Employing the two types of guidance, the 2D diffusion model enriches the 3D content with diversified and high-quality results. Extensive experiments show the superiority of our Sherpa3D over the state-of-the-art text-to-3D methods in terms of quality and 3D consistency.

Sherpa3D: Potenziamento della generazione testo-3D ad alta fedeltà tramite un priore 3D approssimato

Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior

Abstract

Support