ChatPaper.aiChatPaper

Dual3D: 듀얼 모드 멀티뷰 잠재 확산을 통한 효율적이고 일관된 텍스트-3D 생성

Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion

May 16, 2024
저자: Xinyang Li, Zhangyu Lai, Linning Xu, Jianfei Guo, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji
cs.AI

초록

우리는 텍스트에서 고품질 3D 자산을 단 1분 만에 생성하는 새로운 텍스트-3D 생성 프레임워크인 Dual3D를 소개합니다. 핵심 구성 요소는 이중 모드 다중 뷰 잠재 확산 모델입니다. 노이즈가 있는 다중 뷰 잠재 변수가 주어지면, 2D 모드는 단일 잠재 노이즈 제거 네트워크를 통해 이를 효율적으로 제거할 수 있으며, 3D 모드는 일관된 렌더링 기반 노이즈 제거를 위한 삼중 평면 신경 표면을 생성할 수 있습니다. 두 모드의 대부분의 모듈은 사전 훈련된 텍스트-이미지 잠재 확산 모델에서 조정되어 처음부터 훈련하는 데 드는 비용을 절약합니다. 추론 중 높은 렌더링 비용을 극복하기 위해, 우리는 3D 모드에서 단 1/10의 노이즈 제거 단계만 사용하는 이중 모드 전환 추론 전략을 제안하여 품질을 희생하지 않고 단 10초 만에 3D 자산을 성공적으로 생성합니다. 3D 자산의 텍스처는 짧은 시간 내에 우리의 효율적인 텍스처 정제 과정을 통해 더욱 향상될 수 있습니다. 광범위한 실험을 통해 우리의 방법이 최신의 성능을 제공하면서도 생성 시간을 크게 단축한다는 것을 입증했습니다. 우리의 프로젝트 페이지는 https://dual3d.github.io에서 확인할 수 있습니다.
English
We present Dual3D, a novel text-to-3D generation framework that generates high-quality 3D assets from texts in only 1 minute.The key component is a dual-mode multi-view latent diffusion model. Given the noisy multi-view latents, the 2D mode can efficiently denoise them with a single latent denoising network, while the 3D mode can generate a tri-plane neural surface for consistent rendering-based denoising. Most modules for both modes are tuned from a pre-trained text-to-image latent diffusion model to circumvent the expensive cost of training from scratch. To overcome the high rendering cost during inference, we propose the dual-mode toggling inference strategy to use only 1/10 denoising steps with 3D mode, successfully generating a 3D asset in just 10 seconds without sacrificing quality. The texture of the 3D asset can be further enhanced by our efficient texture refinement process in a short time. Extensive experiments demonstrate that our method delivers state-of-the-art performance while significantly reducing generation time. Our project page is available at https://dual3d.github.io

Summary

AI-Generated Summary

PDF200December 15, 2024