ChatPaper.aiChatPaper

VP3D: Het ontketenen van 2D visuele prompts voor tekst-naar-3D generatie

VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation

March 25, 2024
Auteurs: Yang Chen, Yingwei Pan, Haibo Yang, Ting Yao, Tao Mei
cs.AI

Samenvatting

Recente innovaties op het gebied van tekst-naar-3D-generatie hebben Score Distillation Sampling (SDS) geïntroduceerd, wat zero-shot leren van impliciete 3D-modellen (NeRF) mogelijk maakt door direct kennis te distilleren uit 2D-diffusiemodellen. Huidige SDS-gebaseerde modellen hebben echter nog steeds moeite met complexe tekstprompts en resulteren vaak in vervormde 3D-modellen met onrealistische texturen of inconsistenties tussen verschillende aanzichten. In dit werk introduceren we een nieuw Visueel Prompt-gestuurd tekst-naar-3D-diffusiemodel (VP3D) dat expliciet de visuele uiterlijkheidskennis in 2D-visuele prompts benut om tekst-naar-3D-generatie te verbeteren. In plaats van SDS uitsluitend te sturen met een tekstprompt, maakt VP3D eerst gebruik van een 2D-diffusiemodel om een hoogwaardige afbeelding te genereren vanuit de invoertekst, die vervolgens als visuele prompt fungeert om de SDS-optimalisatie te versterken met expliciete visuele uiterlijkheid. Tegelijkertijd koppelen we de SDS-optimalisatie aan een aanvullende differentieerbare beloningsfunctie die ervoor zorgt dat gerenderde afbeeldingen van 3D-modellen beter visueel overeenkomen met de 2D-visuele prompt en semantisch aansluiten bij de tekstprompt. Door middel van uitgebreide experimenten tonen we aan dat de 2D Visuele Prompt in ons VP3D het leren van de visuele uiterlijkheid van 3D-modellen aanzienlijk vergemakkelijkt en zo leidt tot een hogere visuele kwaliteit met meer gedetailleerde texturen. Het is ook aantrekkelijk om te zien dat, wanneer de zelf gegenereerde visuele prompt wordt vervangen door een gegeven referentieafbeelding, VP3D een nieuwe taak van gestileerde tekst-naar-3D-generatie kan activeren. Onze projectpagina is beschikbaar op https://vp3d-cvpr24.github.io.
English
Recent innovations on text-to-3D generation have featured Score Distillation Sampling (SDS), which enables the zero-shot learning of implicit 3D models (NeRF) by directly distilling prior knowledge from 2D diffusion models. However, current SDS-based models still struggle with intricate text prompts and commonly result in distorted 3D models with unrealistic textures or cross-view inconsistency issues. In this work, we introduce a novel Visual Prompt-guided text-to-3D diffusion model (VP3D) that explicitly unleashes the visual appearance knowledge in 2D visual prompt to boost text-to-3D generation. Instead of solely supervising SDS with text prompt, VP3D first capitalizes on 2D diffusion model to generate a high-quality image from input text, which subsequently acts as visual prompt to strengthen SDS optimization with explicit visual appearance. Meanwhile, we couple the SDS optimization with additional differentiable reward function that encourages rendering images of 3D models to better visually align with 2D visual prompt and semantically match with text prompt. Through extensive experiments, we show that the 2D Visual Prompt in our VP3D significantly eases the learning of visual appearance of 3D models and thus leads to higher visual fidelity with more detailed textures. It is also appealing in view that when replacing the self-generating visual prompt with a given reference image, VP3D is able to trigger a new task of stylized text-to-3D generation. Our project page is available at https://vp3d-cvpr24.github.io.
PDF61February 8, 2026