ChatPaper.aiChatPaper

Sherpa3D: Verbesserung der hochauflösenden Text-zu-3D-Generierung durch grobe 3D-Priorinformationen

Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior

December 11, 2023
Autoren: Fangfu Liu, Diankun Wu, Yi Wei, Yongming Rao, Yueqi Duan
cs.AI

Zusammenfassung

Kürzlich hat die 3D-Inhaltserstellung aus Textprompts bemerkenswerte Fortschritte durch die Nutzung von 2D- und 3D-Diffusionsmodellen gezeigt. Während 3D-Diffusionsmodelle eine hervorragende Multi-View-Konsistenz gewährleisten, wird ihre Fähigkeit, hochwertige und vielfältige 3D-Assets zu generieren, durch die begrenzten 3D-Daten eingeschränkt. Im Gegensatz dazu finden 2D-Diffusionsmodelle einen Destillationsansatz, der eine ausgezeichnete Generalisierung und detailreiche Ergebnisse ohne jegliche 3D-Daten erreicht. Allerdings leiden 2D-Lifting-Methoden unter inhärenter sichtunabhängiger Mehrdeutigkeit, was zu schwerwiegenden Multi-Face-Janus-Problemen führt, bei denen Textprompts nicht ausreichend Anleitung bieten, um kohärente 3D-Ergebnisse zu erlernen. Anstatt ein kostspieliges sichtpunktbewusstes Modell neu zu trainieren, untersuchen wir, wie leicht zugängliches grobes 3D-Wissen vollständig genutzt werden kann, um die Prompts zu verbessern und die 2D-Lifting-Optimierung zur Verfeinerung zu leiten. In diesem Artikel schlagen wir Sherpa3D vor, ein neues Text-zu-3D-Framework, das gleichzeitig hohe Detailtreue, Generalisierbarkeit und geometrische Konsistenz erreicht. Insbesondere entwerfen wir ein Paar von Leitstrategien, die aus dem groben 3D-Prior abgeleitet werden, das vom 3D-Diffusionsmodell erzeugt wird: eine strukturelle Leitlinie für geometrische Detailtreue und eine semantische Leitlinie für 3D-Kohärenz. Durch den Einsatz dieser beiden Leitlinien bereichert das 2D-Diffusionsmodell den 3D-Inhalt mit vielfältigen und hochwertigen Ergebnissen. Umfangreiche Experimente zeigen die Überlegenheit unseres Sherpa3D gegenüber den state-of-the-art Text-zu-3D-Methoden in Bezug auf Qualität und 3D-Konsistenz.
English
Recently, 3D content creation from text prompts has demonstrated remarkable progress by utilizing 2D and 3D diffusion models. While 3D diffusion models ensure great multi-view consistency, their ability to generate high-quality and diverse 3D assets is hindered by the limited 3D data. In contrast, 2D diffusion models find a distillation approach that achieves excellent generalization and rich details without any 3D data. However, 2D lifting methods suffer from inherent view-agnostic ambiguity thereby leading to serious multi-face Janus issues, where text prompts fail to provide sufficient guidance to learn coherent 3D results. Instead of retraining a costly viewpoint-aware model, we study how to fully exploit easily accessible coarse 3D knowledge to enhance the prompts and guide 2D lifting optimization for refinement. In this paper, we propose Sherpa3D, a new text-to-3D framework that achieves high-fidelity, generalizability, and geometric consistency simultaneously. Specifically, we design a pair of guiding strategies derived from the coarse 3D prior generated by the 3D diffusion model: a structural guidance for geometric fidelity and a semantic guidance for 3D coherence. Employing the two types of guidance, the 2D diffusion model enriches the 3D content with diversified and high-quality results. Extensive experiments show the superiority of our Sherpa3D over the state-of-the-art text-to-3D methods in terms of quality and 3D consistency.
PDF240December 15, 2024