VP3D: Sfruttare il Prompt Visivo 2D per la Generazione di Contenuti da Testo a 3D

Abstract

Le recenti innovazioni nella generazione da testo a 3D hanno introdotto il Campionamento per Distillazione del Punteggio (Score Distillation Sampling, SDS), che consente l'apprendimento zero-shot di modelli 3D impliciti (NeRF) distillando direttamente conoscenze pregresse da modelli di diffusione 2D. Tuttavia, i modelli basati su SDS attuali incontrano ancora difficoltà con prompt testuali complessi e spesso producono modelli 3D distorti con texture irrealistiche o problemi di incoerenza tra le viste. In questo lavoro, presentiamo un nuovo modello di diffusione da testo a 3D guidato da Prompt Visivo (VP3D), che sfrutta esplicitamente la conoscenza dell'aspetto visivo contenuta in un prompt visivo 2D per migliorare la generazione da testo a 3D. Invece di supervisionare SDS esclusivamente con un prompt testuale, VP3D utilizza prima un modello di diffusione 2D per generare un'immagine di alta qualità a partire dal testo in input, che funge poi da prompt visivo per rafforzare l'ottimizzazione SDS con un aspetto visivo esplicito. Contemporaneamente, accoppiamo l'ottimizzazione SDS con una funzione di ricompensa differenziabile aggiuntiva che incoraggia le immagini renderizzate dei modelli 3D ad allinearsi meglio visivamente con il prompt visivo 2D e a corrispondere semanticamente al prompt testuale. Attraverso esperimenti estesi, dimostriamo che il Prompt Visivo 2D nel nostro VP3D facilita significativamente l'apprendimento dell'aspetto visivo dei modelli 3D, portando così a una maggiore fedeltà visiva con texture più dettagliate. È inoltre interessante notare che, sostituendo il prompt visivo auto-generato con un'immagine di riferimento fornita, VP3D è in grado di attivare un nuovo compito di generazione da testo a 3D stilizzata. La nostra pagina del progetto è disponibile all'indirizzo https://vp3d-cvpr24.github.io.

English

Recent innovations on text-to-3D generation have featured Score Distillation Sampling (SDS), which enables the zero-shot learning of implicit 3D models (NeRF) by directly distilling prior knowledge from 2D diffusion models. However, current SDS-based models still struggle with intricate text prompts and commonly result in distorted 3D models with unrealistic textures or cross-view inconsistency issues. In this work, we introduce a novel Visual Prompt-guided text-to-3D diffusion model (VP3D) that explicitly unleashes the visual appearance knowledge in 2D visual prompt to boost text-to-3D generation. Instead of solely supervising SDS with text prompt, VP3D first capitalizes on 2D diffusion model to generate a high-quality image from input text, which subsequently acts as visual prompt to strengthen SDS optimization with explicit visual appearance. Meanwhile, we couple the SDS optimization with additional differentiable reward function that encourages rendering images of 3D models to better visually align with 2D visual prompt and semantically match with text prompt. Through extensive experiments, we show that the 2D Visual Prompt in our VP3D significantly eases the learning of visual appearance of 3D models and thus leads to higher visual fidelity with more detailed textures. It is also appealing in view that when replacing the self-generating visual prompt with a given reference image, VP3D is able to trigger a new task of stylized text-to-3D generation. Our project page is available at https://vp3d-cvpr24.github.io.

VP3D: Sfruttare il Prompt Visivo 2D per la Generazione di Contenuti da Testo a 3D

VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation

Abstract

Support