Instant3D: Мгновенное создание 3D-моделей из текста

Аннотация

Генерация 3D-объектов из текста, целью которой является создание реалистичных 3D-моделей на основе текстовых запросов, привлекает значительное внимание сообщества компьютерного зрения. Хотя несколько существующих работ достигли впечатляющих результатов в этой задаче, они в основном полагаются на трудоемкий процесс оптимизации. В частности, эти методы оптимизируют нейронное поле с нуля для каждого текстового запроса, занимая примерно час или более для генерации одного объекта. Эти высокие и повторяющиеся затраты на обучение препятствуют их практическому применению. В данной статье мы предлагаем новый фреймворк для быстрой генерации 3D-объектов из текста, названный Instant3D. После обучения Instant3D способен создавать 3D-объект для нового текстового запроса менее чем за одну секунду с помощью однократного прохода через прямую нейронную сеть. Мы достигаем такой впечатляющей скорости за счет разработки новой сети, которая напрямую строит 3D-триплан из текстового запроса. Основное новшество нашего Instant3D заключается в исследовании стратегий эффективного внедрения текстовых условий в сеть. Кроме того, мы предлагаем простую, но эффективную функцию активации, масштабированную сигмоиду, которая заменяет оригинальную сигмоиду и ускоряет сходимость обучения более чем в десять раз. Наконец, для решения проблемы Януса (многоголовости) в генерации 3D-объектов мы предлагаем адаптивный алгоритм Perp-Neg, который может динамически регулировать масштабы отрицания концепций в зависимости от степени проблемы Януса во время обучения, эффективно уменьшая эффект многоголовости. Многочисленные эксперименты на различных эталонных наборах данных демонстрируют, что предложенный алгоритм превосходит современные методы как качественно, так и количественно, при этом достигая значительно лучшей эффективности. Страница проекта доступна по адресу https://ming1993li.github.io/Instant3DProj.

English

Text-to-3D generation, which aims to synthesize vivid 3D objects from text prompts, has attracted much attention from the computer vision community. While several existing works have achieved impressive results for this task, they mainly rely on a time-consuming optimization paradigm. Specifically, these methods optimize a neural field from scratch for each text prompt, taking approximately one hour or more to generate one object. This heavy and repetitive training cost impedes their practical deployment. In this paper, we propose a novel framework for fast text-to-3D generation, dubbed Instant3D. Once trained, Instant3D is able to create a 3D object for an unseen text prompt in less than one second with a single run of a feedforward network. We achieve this remarkable speed by devising a new network that directly constructs a 3D triplane from a text prompt. The core innovation of our Instant3D lies in our exploration of strategies to effectively inject text conditions into the network. Furthermore, we propose a simple yet effective activation function, the scaled-sigmoid, to replace the original sigmoid function, which speeds up the training convergence by more than ten times. Finally, to address the Janus (multi-head) problem in 3D generation, we propose an adaptive Perp-Neg algorithm that can dynamically adjust its concept negation scales according to the severity of the Janus problem during training, effectively reducing the multi-head effect. Extensive experiments on a wide variety of benchmark datasets demonstrate that the proposed algorithm performs favorably against the state-of-the-art methods both qualitatively and quantitatively, while achieving significantly better efficiency. The project page is at https://ming1993li.github.io/Instant3DProj.

Instant3D: Мгновенное создание 3D-моделей из текста

Instant3D: Instant Text-to-3D Generation

Аннотация

Support