Instant3D: 즉각적인 텍스트-3D 생성
Instant3D: Instant Text-to-3D Generation
November 14, 2023
저자: Ming Li, Pan Zhou, Jia-Wei Liu, Jussi Keppo, Min Lin, Shuicheng Yan, Xiangyu Xu
cs.AI
초록
텍스트에서 3D 생성은 텍스트 프롬프트로부터 생생한 3D 객체를 합성하는 것을 목표로 하며, 컴퓨터 비전 커뮤니티로부터 많은 관심을 받고 있습니다. 기존의 여러 연구들이 이 작업에서 인상적인 결과를 달성했지만, 이들은 주로 시간이 많이 소요되는 최적화 패러다임에 의존합니다. 구체적으로, 이러한 방법들은 각 텍스트 프롬프트에 대해 신경망 필드를 처음부터 최적화하며, 하나의 객체를 생성하는 데 약 1시간 이상이 소요됩니다. 이러한 높고 반복적인 학습 비용은 실제 배포를 방해합니다. 본 논문에서는 빠른 텍스트에서 3D 생성을 위한 새로운 프레임워크인 Instant3D를 제안합니다. 한 번 학습된 Instant3D는 보지 못한 텍스트 프롬프트에 대해 단일 순방향 네트워크 실행으로 1초 미만의 시간 내에 3D 객체를 생성할 수 있습니다. 우리는 텍스트 프롬프트로부터 직접 3D 트라이플레인을 구성하는 새로운 네트워크를 설계함으로써 이 놀라운 속도를 달성했습니다. Instant3D의 핵심 혁신은 텍스트 조건을 네트워크에 효과적으로 주입하기 위한 전략 탐구에 있습니다. 또한, 우리는 원래의 시그모이드 함수를 대체하기 위해 단순하지만 효과적인 활성화 함수인 스케일드 시그모이드를 제안하며, 이를 통해 학습 수렴 속도를 10배 이상 가속화했습니다. 마지막으로, 3D 생성에서의 야누스(다중 머리) 문제를 해결하기 위해, 우리는 학습 중 야누스 문제의 심각도에 따라 개념 부정 스케일을 동적으로 조정할 수 있는 적응형 Perp-Neg 알고리즘을 제안하여 다중 머리 효과를 효과적으로 줄였습니다. 다양한 벤치마크 데이터셋에 대한 광범위한 실험을 통해 제안된 알고리즘이 정성적 및 정량적으로 최신 방법들에 비해 우수한 성능을 보이면서도 훨씬 더 나은 효율성을 달성함을 입증했습니다. 프로젝트 페이지는 https://ming1993li.github.io/Instant3DProj에서 확인할 수 있습니다.
English
Text-to-3D generation, which aims to synthesize vivid 3D objects from text
prompts, has attracted much attention from the computer vision community. While
several existing works have achieved impressive results for this task, they
mainly rely on a time-consuming optimization paradigm. Specifically, these
methods optimize a neural field from scratch for each text prompt, taking
approximately one hour or more to generate one object. This heavy and
repetitive training cost impedes their practical deployment. In this paper, we
propose a novel framework for fast text-to-3D generation, dubbed Instant3D.
Once trained, Instant3D is able to create a 3D object for an unseen text prompt
in less than one second with a single run of a feedforward network. We achieve
this remarkable speed by devising a new network that directly constructs a 3D
triplane from a text prompt. The core innovation of our Instant3D lies in our
exploration of strategies to effectively inject text conditions into the
network. Furthermore, we propose a simple yet effective activation function,
the scaled-sigmoid, to replace the original sigmoid function, which speeds up
the training convergence by more than ten times. Finally, to address the Janus
(multi-head) problem in 3D generation, we propose an adaptive Perp-Neg
algorithm that can dynamically adjust its concept negation scales according to
the severity of the Janus problem during training, effectively reducing the
multi-head effect. Extensive experiments on a wide variety of benchmark
datasets demonstrate that the proposed algorithm performs favorably against the
state-of-the-art methods both qualitatively and quantitatively, while achieving
significantly better efficiency. The project page is at
https://ming1993li.github.io/Instant3DProj.