ChatPaper.aiChatPaper

VP3D: Liberando o Prompt Visual 2D para Geração de Texto para 3D

VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation

March 25, 2024
Autores: Yang Chen, Yingwei Pan, Haibo Yang, Ting Yao, Tao Mei
cs.AI

Resumo

Inovações recentes na geração de texto para 3D apresentaram o Score Distillation Sampling (SDS), que permite o aprendizado zero-shot de modelos 3D implícitos (NeRF) ao destilar diretamente conhecimento prévio de modelos de difusão 2D. No entanto, os modelos baseados em SDS atuais ainda enfrentam dificuldades com prompts de texto complexos e frequentemente resultam em modelos 3D distorcidos, com texturas irreais ou problemas de inconsistência entre diferentes visões. Neste trabalho, introduzimos um novo modelo de difusão texto-para-3D guiado por Prompt Visual (VP3D) que libera explicitamente o conhecimento de aparência visual em prompts visuais 2D para impulsionar a geração texto-para-3D. Em vez de supervisionar o SDS apenas com o prompt de texto, o VP3D primeiro utiliza um modelo de difusão 2D para gerar uma imagem de alta qualidade a partir do texto de entrada, que subsequentemente atua como prompt visual para fortalecer a otimização do SDS com aparência visual explícita. Paralelamente, acoplamos a otimização do SDS com uma função de recompensa diferenciável adicional que incentiva as imagens renderizadas dos modelos 3D a se alinharem visualmente melhor com o prompt visual 2D e a corresponderem semanticamente com o prompt de texto. Através de extensos experimentos, mostramos que o Prompt Visual 2D em nosso VP3D facilita significativamente o aprendizado da aparência visual dos modelos 3D, levando assim a uma maior fidelidade visual com texturas mais detalhadas. Também é interessante observar que, ao substituir o prompt visual auto-gerado por uma imagem de referência fornecida, o VP3D é capaz de desencadear uma nova tarefa de geração texto-para-3D estilizada. Nossa página do projeto está disponível em https://vp3d-cvpr24.github.io.
English
Recent innovations on text-to-3D generation have featured Score Distillation Sampling (SDS), which enables the zero-shot learning of implicit 3D models (NeRF) by directly distilling prior knowledge from 2D diffusion models. However, current SDS-based models still struggle with intricate text prompts and commonly result in distorted 3D models with unrealistic textures or cross-view inconsistency issues. In this work, we introduce a novel Visual Prompt-guided text-to-3D diffusion model (VP3D) that explicitly unleashes the visual appearance knowledge in 2D visual prompt to boost text-to-3D generation. Instead of solely supervising SDS with text prompt, VP3D first capitalizes on 2D diffusion model to generate a high-quality image from input text, which subsequently acts as visual prompt to strengthen SDS optimization with explicit visual appearance. Meanwhile, we couple the SDS optimization with additional differentiable reward function that encourages rendering images of 3D models to better visually align with 2D visual prompt and semantically match with text prompt. Through extensive experiments, we show that the 2D Visual Prompt in our VP3D significantly eases the learning of visual appearance of 3D models and thus leads to higher visual fidelity with more detailed textures. It is also appealing in view that when replacing the self-generating visual prompt with a given reference image, VP3D is able to trigger a new task of stylized text-to-3D generation. Our project page is available at https://vp3d-cvpr24.github.io.
PDF61February 8, 2026