ChatPaper.aiChatPaper

VP3D: 텍스트-3D 생성을 위한 2D 시각적 프롬프트의 잠재력 발휘

VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation

March 25, 2024
저자: Yang Chen, Yingwei Pan, Haibo Yang, Ting Yao, Tao Mei
cs.AI

초록

최근 텍스트-3D 생성 분야에서는 2D 확산 모델로부터 사전 지식을 직접 추출하여 암시적 3D 모델(NeRF)의 제로샷 학습을 가능하게 하는 Score Distillation Sampling(SDS)이 주목받고 있습니다. 그러나 현재의 SDS 기반 모델들은 복잡한 텍스트 프롬프트를 처리하는 데 어려움을 겪으며, 비현실적인 텍스처나 시점 간 불일치 문제를 가진 왜곡된 3D 모델을 생성하는 경우가 많습니다. 본 연구에서는 2D 시각적 프롬프트에 내재된 시각적 외관 지식을 명시적으로 활용하여 텍스트-3D 생성을 향상시키는 새로운 Visual Prompt-guided 텍스트-3D 확산 모델(VP3D)을 소개합니다. VP3D는 텍스트 프롬프트만으로 SDS를 감독하는 대신, 먼저 2D 확산 모델을 활용하여 입력 텍스트로부터 고품질 이미지를 생성하고, 이를 시각적 프롬프트로 사용하여 명시적인 시각적 외관을 통해 SDS 최적화를 강화합니다. 동시에, SDS 최적화에 추가적인 미분 가능한 보상 함수를 결합하여 3D 모델의 렌더링 이미지가 2D 시각적 프롬프트와 더 잘 시각적으로 정렬되고 텍스트 프롬프트와 의미적으로 일치하도록 유도합니다. 광범위한 실험을 통해, VP3D의 2D 시각적 프롬프트가 3D 모델의 시각적 외관 학습을 크게 용이하게 하여 더 세밀한 텍스처와 높은 시각적 충실도를 달성함을 보여줍니다. 또한, 자체 생성된 시각적 프롬프트를 주어진 참조 이미지로 대체할 경우, VP3D는 스타일화된 텍스트-3D 생성이라는 새로운 작업을 수행할 수 있다는 점에서 매력적입니다. 프로젝트 페이지는 https://vp3d-cvpr24.github.io에서 확인할 수 있습니다.
English
Recent innovations on text-to-3D generation have featured Score Distillation Sampling (SDS), which enables the zero-shot learning of implicit 3D models (NeRF) by directly distilling prior knowledge from 2D diffusion models. However, current SDS-based models still struggle with intricate text prompts and commonly result in distorted 3D models with unrealistic textures or cross-view inconsistency issues. In this work, we introduce a novel Visual Prompt-guided text-to-3D diffusion model (VP3D) that explicitly unleashes the visual appearance knowledge in 2D visual prompt to boost text-to-3D generation. Instead of solely supervising SDS with text prompt, VP3D first capitalizes on 2D diffusion model to generate a high-quality image from input text, which subsequently acts as visual prompt to strengthen SDS optimization with explicit visual appearance. Meanwhile, we couple the SDS optimization with additional differentiable reward function that encourages rendering images of 3D models to better visually align with 2D visual prompt and semantically match with text prompt. Through extensive experiments, we show that the 2D Visual Prompt in our VP3D significantly eases the learning of visual appearance of 3D models and thus leads to higher visual fidelity with more detailed textures. It is also appealing in view that when replacing the self-generating visual prompt with a given reference image, VP3D is able to trigger a new task of stylized text-to-3D generation. Our project page is available at https://vp3d-cvpr24.github.io.
PDF61December 15, 2024