Instant3D: Мгновенное создание 3D-моделей из текста
Instant3D: Instant Text-to-3D Generation
November 14, 2023
Авторы: Ming Li, Pan Zhou, Jia-Wei Liu, Jussi Keppo, Min Lin, Shuicheng Yan, Xiangyu Xu
cs.AI
Аннотация
Генерация 3D-объектов из текста, целью которой является создание реалистичных 3D-моделей на основе текстовых запросов, привлекает значительное внимание сообщества компьютерного зрения. Хотя несколько существующих работ достигли впечатляющих результатов в этой задаче, они в основном полагаются на трудоемкий процесс оптимизации. В частности, эти методы оптимизируют нейронное поле с нуля для каждого текстового запроса, занимая примерно час или более для генерации одного объекта. Эти высокие и повторяющиеся затраты на обучение препятствуют их практическому применению. В данной статье мы предлагаем новый фреймворк для быстрой генерации 3D-объектов из текста, названный Instant3D. После обучения Instant3D способен создавать 3D-объект для нового текстового запроса менее чем за одну секунду с помощью однократного прохода через прямую нейронную сеть. Мы достигаем такой впечатляющей скорости за счет разработки новой сети, которая напрямую строит 3D-триплан из текстового запроса. Основное новшество нашего Instant3D заключается в исследовании стратегий эффективного внедрения текстовых условий в сеть. Кроме того, мы предлагаем простую, но эффективную функцию активации, масштабированную сигмоиду, которая заменяет оригинальную сигмоиду и ускоряет сходимость обучения более чем в десять раз. Наконец, для решения проблемы Януса (многоголовости) в генерации 3D-объектов мы предлагаем адаптивный алгоритм Perp-Neg, который может динамически регулировать масштабы отрицания концепций в зависимости от степени проблемы Януса во время обучения, эффективно уменьшая эффект многоголовости. Многочисленные эксперименты на различных эталонных наборах данных демонстрируют, что предложенный алгоритм превосходит современные методы как качественно, так и количественно, при этом достигая значительно лучшей эффективности. Страница проекта доступна по адресу https://ming1993li.github.io/Instant3DProj.
English
Text-to-3D generation, which aims to synthesize vivid 3D objects from text
prompts, has attracted much attention from the computer vision community. While
several existing works have achieved impressive results for this task, they
mainly rely on a time-consuming optimization paradigm. Specifically, these
methods optimize a neural field from scratch for each text prompt, taking
approximately one hour or more to generate one object. This heavy and
repetitive training cost impedes their practical deployment. In this paper, we
propose a novel framework for fast text-to-3D generation, dubbed Instant3D.
Once trained, Instant3D is able to create a 3D object for an unseen text prompt
in less than one second with a single run of a feedforward network. We achieve
this remarkable speed by devising a new network that directly constructs a 3D
triplane from a text prompt. The core innovation of our Instant3D lies in our
exploration of strategies to effectively inject text conditions into the
network. Furthermore, we propose a simple yet effective activation function,
the scaled-sigmoid, to replace the original sigmoid function, which speeds up
the training convergence by more than ten times. Finally, to address the Janus
(multi-head) problem in 3D generation, we propose an adaptive Perp-Neg
algorithm that can dynamically adjust its concept negation scales according to
the severity of the Janus problem during training, effectively reducing the
multi-head effect. Extensive experiments on a wide variety of benchmark
datasets demonstrate that the proposed algorithm performs favorably against the
state-of-the-art methods both qualitatively and quantitatively, while achieving
significantly better efficiency. The project page is at
https://ming1993li.github.io/Instant3DProj.