Instant3D: Directe Tekst-naar-3D Generatie
Instant3D: Instant Text-to-3D Generation
November 14, 2023
Auteurs: Ming Li, Pan Zhou, Jia-Wei Liu, Jussi Keppo, Min Lin, Shuicheng Yan, Xiangyu Xu
cs.AI
Samenvatting
Text-to-3D-generatie, dat als doel heeft levendige 3D-objecten te synthetiseren vanuit tekstprompts, heeft veel aandacht gekregen van de computervisie-gemeenschap. Hoewel verschillende bestaande werken indrukwekkende resultaten hebben behaald voor deze taak, baseren ze zich voornamelijk op een tijdrovend optimalisatieparadigma. Specifiek optimaliseren deze methoden een neuraal veld vanaf nul voor elke tekstprompt, wat ongeveer een uur of meer kost om één object te genereren. Deze zware en repetitieve trainingskosten belemmeren hun praktische inzetbaarheid. In dit artikel stellen we een nieuw framework voor voor snelle text-to-3D-generatie, genaamd Instant3D. Eenmaal getraind, is Instant3D in staat om een 3D-object te creëren voor een onbekende tekstprompt in minder dan één seconde met een enkele uitvoering van een feedforward-netwerk. We bereiken deze opmerkelijke snelheid door een nieuw netwerk te ontwerpen dat direct een 3D-triplane construeert vanuit een tekstprompt. De kerninnovatie van onze Instant3D ligt in onze verkenning van strategieën om tekstcondities effectief in het netwerk te injecteren. Bovendien stellen we een eenvoudige maar effectieve activatiefunctie voor, de geschaalde sigmoïde, om de oorspronkelijke sigmoïdefunctie te vervangen, wat de trainingsconvergentie meer dan tien keer versnelt. Ten slotte, om het Janus (multi-head) probleem in 3D-generatie aan te pakken, stellen we een adaptief Perp-Neg-algoritme voor dat dynamisch zijn conceptnegatieschalen kan aanpassen op basis van de ernst van het Janus-probleem tijdens de training, waardoor het multi-head-effect effectief wordt verminderd. Uitgebreide experimenten op een breed scala aan benchmarkdatasets tonen aan dat het voorgestelde algoritme kwalitatief en kwantitatief gunstig presteert ten opzichte van de state-of-the-art methoden, terwijl het aanzienlijk betere efficiëntie bereikt. De projectpagina is te vinden op https://ming1993li.github.io/Instant3DProj.
English
Text-to-3D generation, which aims to synthesize vivid 3D objects from text
prompts, has attracted much attention from the computer vision community. While
several existing works have achieved impressive results for this task, they
mainly rely on a time-consuming optimization paradigm. Specifically, these
methods optimize a neural field from scratch for each text prompt, taking
approximately one hour or more to generate one object. This heavy and
repetitive training cost impedes their practical deployment. In this paper, we
propose a novel framework for fast text-to-3D generation, dubbed Instant3D.
Once trained, Instant3D is able to create a 3D object for an unseen text prompt
in less than one second with a single run of a feedforward network. We achieve
this remarkable speed by devising a new network that directly constructs a 3D
triplane from a text prompt. The core innovation of our Instant3D lies in our
exploration of strategies to effectively inject text conditions into the
network. Furthermore, we propose a simple yet effective activation function,
the scaled-sigmoid, to replace the original sigmoid function, which speeds up
the training convergence by more than ten times. Finally, to address the Janus
(multi-head) problem in 3D generation, we propose an adaptive Perp-Neg
algorithm that can dynamically adjust its concept negation scales according to
the severity of the Janus problem during training, effectively reducing the
multi-head effect. Extensive experiments on a wide variety of benchmark
datasets demonstrate that the proposed algorithm performs favorably against the
state-of-the-art methods both qualitatively and quantitatively, while achieving
significantly better efficiency. The project page is at
https://ming1993li.github.io/Instant3DProj.