Turbo3D : Génération ultra-rapide de texte en 3D

Résumé

Nous présentons Turbo3D, un système de conversion de texte en 3D ultra-rapide capable de générer des éléments de type Gaussian splatting de haute qualité en moins d'une seconde. Turbo3D utilise un générateur de diffusion à 4 étapes et 4 vues rapide et un reconstructeur Gaussien à propagation avant efficace, tous deux opérant dans un espace latent. Le générateur à 4 étapes et 4 vues est un modèle étudiant distillé grâce à une nouvelle approche à double enseignant, qui encourage l'étudiant à apprendre la cohérence des vues d'un enseignant multi-vues et le photoréalisme d'un enseignant mono-vue. En déplaçant les entrées du reconstructeur Gaussien de l'espace des pixels à l'espace latent, nous éliminons le temps supplémentaire de décodage d'image et réduisons de moitié la longueur de la séquence du transformateur pour une efficacité maximale. Notre méthode démontre des résultats de génération 3D supérieurs par rapport aux références précédentes, tout en fonctionnant en une fraction de leur temps d'exécution.

English

We present Turbo3D, an ultra-fast text-to-3D system capable of generating high-quality Gaussian splatting assets in under one second. Turbo3D employs a rapid 4-step, 4-view diffusion generator and an efficient feed-forward Gaussian reconstructor, both operating in latent space. The 4-step, 4-view generator is a student model distilled through a novel Dual-Teacher approach, which encourages the student to learn view consistency from a multi-view teacher and photo-realism from a single-view teacher. By shifting the Gaussian reconstructor's inputs from pixel space to latent space, we eliminate the extra image decoding time and halve the transformer sequence length for maximum efficiency. Our method demonstrates superior 3D generation results compared to previous baselines, while operating in a fraction of their runtime.

Turbo3D : Génération ultra-rapide de texte en 3D

Turbo3D: Ultra-fast Text-to-3D Generation

Résumé

Support