ChatPaper.aiChatPaper

Instant3D: Geração Instantânea de Texto para 3D

Instant3D: Instant Text-to-3D Generation

November 14, 2023
Autores: Ming Li, Pan Zhou, Jia-Wei Liu, Jussi Keppo, Min Lin, Shuicheng Yan, Xiangyu Xu
cs.AI

Resumo

A geração de texto para 3D, que visa sintetizar objetos 3D vívidos a partir de prompts de texto, tem atraído muita atenção da comunidade de visão computacional. Embora vários trabalhos existentes tenham alcançado resultados impressionantes para essa tarefa, eles dependem principalmente de um paradigma de otimização demorado. Especificamente, esses métodos otimizam um campo neural do zero para cada prompt de texto, levando aproximadamente uma hora ou mais para gerar um objeto. Esse custo pesado e repetitivo de treinamento impede sua implantação prática. Neste artigo, propomos uma nova estrutura para geração rápida de texto para 3D, chamada Instant3D. Uma vez treinado, o Instant3D é capaz de criar um objeto 3D para um prompt de texto não visto em menos de um segundo com uma única execução de uma rede feedforward. Alcançamos essa velocidade notável ao projetar uma nova rede que constrói diretamente um triplano 3D a partir de um prompt de texto. A inovação central do nosso Instant3D reside na nossa exploração de estratégias para injetar efetivamente condições de texto na rede. Além disso, propomos uma função de ativação simples, porém eficaz, a sigmoide escalonada, para substituir a função sigmoide original, o que acelera a convergência do treinamento em mais de dez vezes. Por fim, para abordar o problema de Janus (multi-cabeça) na geração 3D, propomos um algoritmo Perp-Neg adaptativo que pode ajustar dinamicamente suas escalas de negação de conceito de acordo com a gravidade do problema de Janus durante o treinamento, reduzindo efetivamente o efeito multi-cabeça. Experimentos extensos em uma ampla variedade de conjuntos de dados de referência demonstram que o algoritmo proposto se sai favoravelmente em comparação com os métodos state-of-the-art tanto qualitativa quanto quantitativamente, enquanto alcança uma eficiência significativamente melhor. A página do projeto está em https://ming1993li.github.io/Instant3DProj.
English
Text-to-3D generation, which aims to synthesize vivid 3D objects from text prompts, has attracted much attention from the computer vision community. While several existing works have achieved impressive results for this task, they mainly rely on a time-consuming optimization paradigm. Specifically, these methods optimize a neural field from scratch for each text prompt, taking approximately one hour or more to generate one object. This heavy and repetitive training cost impedes their practical deployment. In this paper, we propose a novel framework for fast text-to-3D generation, dubbed Instant3D. Once trained, Instant3D is able to create a 3D object for an unseen text prompt in less than one second with a single run of a feedforward network. We achieve this remarkable speed by devising a new network that directly constructs a 3D triplane from a text prompt. The core innovation of our Instant3D lies in our exploration of strategies to effectively inject text conditions into the network. Furthermore, we propose a simple yet effective activation function, the scaled-sigmoid, to replace the original sigmoid function, which speeds up the training convergence by more than ten times. Finally, to address the Janus (multi-head) problem in 3D generation, we propose an adaptive Perp-Neg algorithm that can dynamically adjust its concept negation scales according to the severity of the Janus problem during training, effectively reducing the multi-head effect. Extensive experiments on a wide variety of benchmark datasets demonstrate that the proposed algorithm performs favorably against the state-of-the-art methods both qualitatively and quantitatively, while achieving significantly better efficiency. The project page is at https://ming1993li.github.io/Instant3DProj.
PDF463December 15, 2024