Turbo3D : Génération ultra-rapide de texte en 3D
Turbo3D: Ultra-fast Text-to-3D Generation
December 5, 2024
Auteurs: Hanzhe Hu, Tianwei Yin, Fujun Luan, Yiwei Hu, Hao Tan, Zexiang Xu, Sai Bi, Shubham Tulsiani, Kai Zhang
cs.AI
Résumé
Nous présentons Turbo3D, un système de conversion de texte en 3D ultra-rapide capable de générer des éléments de type Gaussian splatting de haute qualité en moins d'une seconde. Turbo3D utilise un générateur de diffusion à 4 étapes et 4 vues rapide et un reconstructeur Gaussien à propagation avant efficace, tous deux opérant dans un espace latent. Le générateur à 4 étapes et 4 vues est un modèle étudiant distillé grâce à une nouvelle approche à double enseignant, qui encourage l'étudiant à apprendre la cohérence des vues d'un enseignant multi-vues et le photoréalisme d'un enseignant mono-vue. En déplaçant les entrées du reconstructeur Gaussien de l'espace des pixels à l'espace latent, nous éliminons le temps supplémentaire de décodage d'image et réduisons de moitié la longueur de la séquence du transformateur pour une efficacité maximale. Notre méthode démontre des résultats de génération 3D supérieurs par rapport aux références précédentes, tout en fonctionnant en une fraction de leur temps d'exécution.
English
We present Turbo3D, an ultra-fast text-to-3D system capable of generating
high-quality Gaussian splatting assets in under one second. Turbo3D employs a
rapid 4-step, 4-view diffusion generator and an efficient feed-forward Gaussian
reconstructor, both operating in latent space. The 4-step, 4-view generator is
a student model distilled through a novel Dual-Teacher approach, which
encourages the student to learn view consistency from a multi-view teacher and
photo-realism from a single-view teacher. By shifting the Gaussian
reconstructor's inputs from pixel space to latent space, we eliminate the extra
image decoding time and halve the transformer sequence length for maximum
efficiency. Our method demonstrates superior 3D generation results compared to
previous baselines, while operating in a fraction of their runtime.Summary
AI-Generated Summary