VP3D: Entfesselung von 2D visuellem Hinweis für die Generierung von Text-zu-3D.
VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation
March 25, 2024
Autoren: Yang Chen, Yingwei Pan, Haibo Yang, Ting Yao, Tao Mei
cs.AI
Zusammenfassung
Neueste Innovationen bei der Text-zu-3D-Generierung umfassen Score Distillation Sampling (SDS), das das Zero-Shot-Lernen impliziter 3D-Modelle (NeRF) ermöglicht, indem es direkt zuvor erlangtes Wissen aus 2D-Diffusionsmodellen destilliert. Allerdings haben aktuelle auf SDS basierende Modelle immer noch Schwierigkeiten mit komplexen Texteingaben und führen häufig zu verzerrten 3D-Modellen mit unrealistischen Texturen oder Inkonsistenzen bei der Kreuzansicht. In dieser Arbeit stellen wir ein neuartiges Visual-Prompt-geführtes Text-zu-3D-Diffusionsmodell (VP3D) vor, das explizit das visuelle Erscheinungsbildswissen im 2D-Visuellen Prompt freisetzt, um die Text-zu-3D-Generierung zu verbessern. Anstatt SDS nur mit Texteingaben zu überwachen, nutzt VP3D zunächst das 2D-Diffusionsmodell, um ein hochwertiges Bild aus dem Eingabetext zu generieren, das dann als visueller Prompt fungiert, um die SDS-Optimierung mit explizitem visuellen Erscheinungsbild zu stärken. Gleichzeitig koppeln wir die SDS-Optimierung mit einer zusätzlichen differenzierbaren Belohnungsfunktion, die die Erstellung von Bildern von 3D-Modellen fördert, die besser mit dem 2D-Visuellen Prompt visuell übereinstimmen und semantisch mit dem Textprompt übereinstimmen. Durch umfangreiche Experimente zeigen wir, dass der 2D-Visuelle Prompt in unserem VP3D das Erlernen des visuellen Erscheinungsbilds von 3D-Modellen erheblich erleichtert und somit zu einer höheren visuellen Treue mit detaillierteren Texturen führt. Es ist auch bemerkenswert, dass VP3D bei der Ersetzung des selbstgenerierten visuellen Prompts durch ein gegebenes Referenzbild eine neue Aufgabe der stilisierten Text-zu-3D-Generierung auslösen kann. Unsere Projektseite ist unter https://vp3d-cvpr24.github.io verfügbar.
English
Recent innovations on text-to-3D generation have featured Score Distillation
Sampling (SDS), which enables the zero-shot learning of implicit 3D models
(NeRF) by directly distilling prior knowledge from 2D diffusion models.
However, current SDS-based models still struggle with intricate text prompts
and commonly result in distorted 3D models with unrealistic textures or
cross-view inconsistency issues. In this work, we introduce a novel Visual
Prompt-guided text-to-3D diffusion model (VP3D) that explicitly unleashes the
visual appearance knowledge in 2D visual prompt to boost text-to-3D generation.
Instead of solely supervising SDS with text prompt, VP3D first capitalizes on
2D diffusion model to generate a high-quality image from input text, which
subsequently acts as visual prompt to strengthen SDS optimization with explicit
visual appearance. Meanwhile, we couple the SDS optimization with additional
differentiable reward function that encourages rendering images of 3D models to
better visually align with 2D visual prompt and semantically match with text
prompt. Through extensive experiments, we show that the 2D Visual Prompt in our
VP3D significantly eases the learning of visual appearance of 3D models and
thus leads to higher visual fidelity with more detailed textures. It is also
appealing in view that when replacing the self-generating visual prompt with a
given reference image, VP3D is able to trigger a new task of stylized
text-to-3D generation. Our project page is available at
https://vp3d-cvpr24.github.io.Summary
AI-Generated Summary