ChatPaper.aiChatPaper

VP3D : Libérer le potentiel des prompts visuels 2D pour la génération de texte vers la 3D

VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation

March 25, 2024
Auteurs: Yang Chen, Yingwei Pan, Haibo Yang, Ting Yao, Tao Mei
cs.AI

Résumé

Les récentes innovations en matière de génération de texte vers 3D ont mis en avant le Score Distillation Sampling (SDS), qui permet l'apprentissage sans données préalables de modèles 3D implicites (NeRF) en distillant directement des connaissances issues de modèles de diffusion 2D. Cependant, les modèles actuels basés sur SDS peinent encore à traiter des prompts textuels complexes et produisent souvent des modèles 3D déformés avec des textures irréalistes ou des problèmes d'incohérence inter-vues. Dans ce travail, nous introduisons un nouveau modèle de diffusion texte-vers-3D guidé par un prompt visuel (VP3D), qui exploite explicitement les connaissances d'apparence visuelle contenues dans un prompt visuel 2D pour améliorer la génération texte-vers-3D. Au lieu de superviser uniquement le SDS avec un prompt textuel, VP3D utilise d'abord un modèle de diffusion 2D pour générer une image de haute qualité à partir du texte d'entrée, qui sert ensuite de prompt visuel pour renforcer l'optimisation du SDS avec une apparence visuelle explicite. Parallèlement, nous combinons l'optimisation du SDS avec une fonction de récompense différentiable supplémentaire qui encourage les images rendues des modèles 3D à mieux s'aligner visuellement avec le prompt visuel 2D et à correspondre sémantiquement au prompt textuel. À travers des expériences approfondies, nous montrons que le prompt visuel 2D dans notre VP3D facilite significativement l'apprentissage de l'apparence visuelle des modèles 3D, conduisant ainsi à une fidélité visuelle accrue avec des textures plus détaillées. Il est également intéressant de noter que lorsque le prompt visuel auto-généré est remplacé par une image de référence donnée, VP3D est capable de déclencher une nouvelle tâche de génération texte-vers-3D stylisée. Notre page de projet est disponible à l'adresse https://vp3d-cvpr24.github.io.
English
Recent innovations on text-to-3D generation have featured Score Distillation Sampling (SDS), which enables the zero-shot learning of implicit 3D models (NeRF) by directly distilling prior knowledge from 2D diffusion models. However, current SDS-based models still struggle with intricate text prompts and commonly result in distorted 3D models with unrealistic textures or cross-view inconsistency issues. In this work, we introduce a novel Visual Prompt-guided text-to-3D diffusion model (VP3D) that explicitly unleashes the visual appearance knowledge in 2D visual prompt to boost text-to-3D generation. Instead of solely supervising SDS with text prompt, VP3D first capitalizes on 2D diffusion model to generate a high-quality image from input text, which subsequently acts as visual prompt to strengthen SDS optimization with explicit visual appearance. Meanwhile, we couple the SDS optimization with additional differentiable reward function that encourages rendering images of 3D models to better visually align with 2D visual prompt and semantically match with text prompt. Through extensive experiments, we show that the 2D Visual Prompt in our VP3D significantly eases the learning of visual appearance of 3D models and thus leads to higher visual fidelity with more detailed textures. It is also appealing in view that when replacing the self-generating visual prompt with a given reference image, VP3D is able to trigger a new task of stylized text-to-3D generation. Our project page is available at https://vp3d-cvpr24.github.io.

Summary

AI-Generated Summary

PDF61December 15, 2024