ChatPaper.aiChatPaper

VP3D: Liberando el potencial de las indicaciones visuales 2D para la generación de texto a 3D

VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation

March 25, 2024
Autores: Yang Chen, Yingwei Pan, Haibo Yang, Ting Yao, Tao Mei
cs.AI

Resumen

Las innovaciones recientes en la generación de texto a 3D han destacado el uso de Muestreo de Destilación de Puntuación (Score Distillation Sampling, SDS), que permite el aprendizaje sin ejemplos previos (zero-shot) de modelos 3D implícitos (NeRF) al destilar directamente conocimiento previo de modelos de difusión 2D. Sin embargo, los modelos actuales basados en SDS aún enfrentan dificultades con indicaciones de texto complejas y comúnmente producen modelos 3D distorsionados con texturas poco realistas o problemas de inconsistencia entre vistas. En este trabajo, presentamos un novedoso modelo de difusión de texto a 3D guiado por indicaciones visuales (VP3D), que explícitamente aprovecha el conocimiento de apariencia visual en indicaciones visuales 2D para mejorar la generación de texto a 3D. En lugar de supervisar SDS únicamente con indicaciones de texto, VP3D primero utiliza un modelo de difusión 2D para generar una imagen de alta calidad a partir del texto de entrada, la cual actúa como indicación visual para fortalecer la optimización de SDS con una apariencia visual explícita. Además, complementamos la optimización de SDS con una función de recompensa diferenciable adicional que fomenta que las imágenes renderizadas de los modelos 3D se alineen visualmente mejor con la indicación visual 2D y coincidan semánticamente con la indicación de texto. A través de experimentos exhaustivos, demostramos que la Indicación Visual 2D en nuestro VP3D facilita significativamente el aprendizaje de la apariencia visual de los modelos 3D, lo que resulta en una mayor fidelidad visual con texturas más detalladas. También es destacable que, al reemplazar la indicación visual autogenerada con una imagen de referencia dada, VP3D es capaz de iniciar una nueva tarea de generación de texto a 3D estilizada. Nuestra página del proyecto está disponible en https://vp3d-cvpr24.github.io.
English
Recent innovations on text-to-3D generation have featured Score Distillation Sampling (SDS), which enables the zero-shot learning of implicit 3D models (NeRF) by directly distilling prior knowledge from 2D diffusion models. However, current SDS-based models still struggle with intricate text prompts and commonly result in distorted 3D models with unrealistic textures or cross-view inconsistency issues. In this work, we introduce a novel Visual Prompt-guided text-to-3D diffusion model (VP3D) that explicitly unleashes the visual appearance knowledge in 2D visual prompt to boost text-to-3D generation. Instead of solely supervising SDS with text prompt, VP3D first capitalizes on 2D diffusion model to generate a high-quality image from input text, which subsequently acts as visual prompt to strengthen SDS optimization with explicit visual appearance. Meanwhile, we couple the SDS optimization with additional differentiable reward function that encourages rendering images of 3D models to better visually align with 2D visual prompt and semantically match with text prompt. Through extensive experiments, we show that the 2D Visual Prompt in our VP3D significantly eases the learning of visual appearance of 3D models and thus leads to higher visual fidelity with more detailed textures. It is also appealing in view that when replacing the self-generating visual prompt with a given reference image, VP3D is able to trigger a new task of stylized text-to-3D generation. Our project page is available at https://vp3d-cvpr24.github.io.

Summary

AI-Generated Summary

PDF61December 15, 2024