VP3D: Sfruttare il Prompt Visivo 2D per la Generazione di Contenuti da Testo a 3D
VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation
March 25, 2024
Autori: Yang Chen, Yingwei Pan, Haibo Yang, Ting Yao, Tao Mei
cs.AI
Abstract
Le recenti innovazioni nella generazione da testo a 3D hanno introdotto il Campionamento per Distillazione del Punteggio (Score Distillation Sampling, SDS), che consente l'apprendimento zero-shot di modelli 3D impliciti (NeRF) distillando direttamente conoscenze pregresse da modelli di diffusione 2D. Tuttavia, i modelli basati su SDS attuali incontrano ancora difficoltà con prompt testuali complessi e spesso producono modelli 3D distorti con texture irrealistiche o problemi di incoerenza tra le viste. In questo lavoro, presentiamo un nuovo modello di diffusione da testo a 3D guidato da Prompt Visivo (VP3D), che sfrutta esplicitamente la conoscenza dell'aspetto visivo contenuta in un prompt visivo 2D per migliorare la generazione da testo a 3D. Invece di supervisionare SDS esclusivamente con un prompt testuale, VP3D utilizza prima un modello di diffusione 2D per generare un'immagine di alta qualità a partire dal testo in input, che funge poi da prompt visivo per rafforzare l'ottimizzazione SDS con un aspetto visivo esplicito. Contemporaneamente, accoppiamo l'ottimizzazione SDS con una funzione di ricompensa differenziabile aggiuntiva che incoraggia le immagini renderizzate dei modelli 3D ad allinearsi meglio visivamente con il prompt visivo 2D e a corrispondere semanticamente al prompt testuale. Attraverso esperimenti estesi, dimostriamo che il Prompt Visivo 2D nel nostro VP3D facilita significativamente l'apprendimento dell'aspetto visivo dei modelli 3D, portando così a una maggiore fedeltà visiva con texture più dettagliate. È inoltre interessante notare che, sostituendo il prompt visivo auto-generato con un'immagine di riferimento fornita, VP3D è in grado di attivare un nuovo compito di generazione da testo a 3D stilizzata. La nostra pagina del progetto è disponibile all'indirizzo https://vp3d-cvpr24.github.io.
English
Recent innovations on text-to-3D generation have featured Score Distillation
Sampling (SDS), which enables the zero-shot learning of implicit 3D models
(NeRF) by directly distilling prior knowledge from 2D diffusion models.
However, current SDS-based models still struggle with intricate text prompts
and commonly result in distorted 3D models with unrealistic textures or
cross-view inconsistency issues. In this work, we introduce a novel Visual
Prompt-guided text-to-3D diffusion model (VP3D) that explicitly unleashes the
visual appearance knowledge in 2D visual prompt to boost text-to-3D generation.
Instead of solely supervising SDS with text prompt, VP3D first capitalizes on
2D diffusion model to generate a high-quality image from input text, which
subsequently acts as visual prompt to strengthen SDS optimization with explicit
visual appearance. Meanwhile, we couple the SDS optimization with additional
differentiable reward function that encourages rendering images of 3D models to
better visually align with 2D visual prompt and semantically match with text
prompt. Through extensive experiments, we show that the 2D Visual Prompt in our
VP3D significantly eases the learning of visual appearance of 3D models and
thus leads to higher visual fidelity with more detailed textures. It is also
appealing in view that when replacing the self-generating visual prompt with a
given reference image, VP3D is able to trigger a new task of stylized
text-to-3D generation. Our project page is available at
https://vp3d-cvpr24.github.io.