Instant3D: Sofortige Text-zu-3D-Generierung
Instant3D: Instant Text-to-3D Generation
November 14, 2023
Autoren: Ming Li, Pan Zhou, Jia-Wei Liu, Jussi Keppo, Min Lin, Shuicheng Yan, Xiangyu Xu
cs.AI
Zusammenfassung
Text-to-3D-Generierung, die darauf abzielt, lebendige 3D-Objekte aus Textbeschreibungen zu synthetisieren, hat in der Computer-Vision-Community viel Aufmerksamkeit erregt. Obwohl mehrere bestehende Arbeiten beeindruckende Ergebnisse für diese Aufgabe erzielt haben, basieren sie hauptsächlich auf einem zeitaufwändigen Optimierungsparadigma. Konkret optimieren diese Methoden ein neuronales Feld für jede Textbeschreibung von Grund auf, was etwa eine Stunde oder mehr in Anspruch nimmt, um ein Objekt zu generieren. Diese hohen und wiederholten Trainingskosten behindern ihren praktischen Einsatz. In diesem Artikel schlagen wir ein neuartiges Framework für schnelle Text-to-3D-Generierung vor, genannt Instant3D. Einmal trainiert, ist Instant3D in der Lage, ein 3D-Objekt für eine unbekannte Textbeschreibung in weniger als einer Sekunde mit einem einzigen Durchlauf eines Feedforward-Netzwerks zu erstellen. Diese bemerkenswerte Geschwindigkeit erreichen wir durch die Entwicklung eines neuen Netzwerks, das direkt ein 3D-Triplane aus einer Textbeschreibung konstruiert. Die Kerninnovation von Instant3D liegt in unserer Erforschung von Strategien, um Textbedingungen effektiv in das Netzwerk einzubetten. Darüber hinaus schlagen wir eine einfache, aber effektive Aktivierungsfunktion vor, die skalierte Sigmoidfunktion, um die ursprüngliche Sigmoidfunktion zu ersetzen, was die Trainingskonvergenz um mehr als das Zehnfache beschleunigt. Schließlich schlagen wir zur Lösung des Janus-(Mehrkopf-)Problems in der 3D-Generierung einen adaptiven Perp-Neg-Algorithmus vor, der seine Konzeptnegationsskalen dynamisch anhand der Schwere des Janus-Problems während des Trainings anpassen kann, wodurch der Mehrkopf-Effekt effektiv reduziert wird. Umfangreiche Experimente auf einer Vielzahl von Benchmark-Datensätzen zeigen, dass der vorgeschlagene Algorithmus sowohl qualitativ als auch quantitativ im Vergleich zu den state-of-the-art Methoden überzeugt, während er eine deutlich bessere Effizienz erreicht. Die Projektseite befindet sich unter https://ming1993li.github.io/Instant3DProj.
English
Text-to-3D generation, which aims to synthesize vivid 3D objects from text
prompts, has attracted much attention from the computer vision community. While
several existing works have achieved impressive results for this task, they
mainly rely on a time-consuming optimization paradigm. Specifically, these
methods optimize a neural field from scratch for each text prompt, taking
approximately one hour or more to generate one object. This heavy and
repetitive training cost impedes their practical deployment. In this paper, we
propose a novel framework for fast text-to-3D generation, dubbed Instant3D.
Once trained, Instant3D is able to create a 3D object for an unseen text prompt
in less than one second with a single run of a feedforward network. We achieve
this remarkable speed by devising a new network that directly constructs a 3D
triplane from a text prompt. The core innovation of our Instant3D lies in our
exploration of strategies to effectively inject text conditions into the
network. Furthermore, we propose a simple yet effective activation function,
the scaled-sigmoid, to replace the original sigmoid function, which speeds up
the training convergence by more than ten times. Finally, to address the Janus
(multi-head) problem in 3D generation, we propose an adaptive Perp-Neg
algorithm that can dynamically adjust its concept negation scales according to
the severity of the Janus problem during training, effectively reducing the
multi-head effect. Extensive experiments on a wide variety of benchmark
datasets demonstrate that the proposed algorithm performs favorably against the
state-of-the-art methods both qualitatively and quantitatively, while achieving
significantly better efficiency. The project page is at
https://ming1993li.github.io/Instant3DProj.