Turbo3D: Генерация 3D из текста с ультра-высокой скоростью

Аннотация

Мы представляем Turbo3D, ультра-быструю систему текст в 3D, способную генерировать высококачественные гауссовы сглаживающие ресурсы менее чем за одну секунду. Turbo3D использует быстрый 4-шаговый, 4-видовой генератор диффузии и эффективный прямой гауссов реконструктор, оба работающих в скрытом пространстве. 4-шаговый, 4-видовой генератор - это модель студента, дистиллированная через новый подход с двумя учителями, который побуждает студента учиться согласованности вида от многовидового учителя и фотореализму от одновидового учителя. Перемещая входы гауссова реконструктора из пространства пикселей в скрытое пространство, мы устраняем дополнительное время декодирования изображения и уменьшаем длину последовательности трансформатора вдвое для достижения максимальной эффективности. Наш метод демонстрирует превосходные результаты генерации 3D по сравнению с предыдущими базовыми уровнями, работая в долю их времени выполнения.

English

We present Turbo3D, an ultra-fast text-to-3D system capable of generating high-quality Gaussian splatting assets in under one second. Turbo3D employs a rapid 4-step, 4-view diffusion generator and an efficient feed-forward Gaussian reconstructor, both operating in latent space. The 4-step, 4-view generator is a student model distilled through a novel Dual-Teacher approach, which encourages the student to learn view consistency from a multi-view teacher and photo-realism from a single-view teacher. By shifting the Gaussian reconstructor's inputs from pixel space to latent space, we eliminate the extra image decoding time and halve the transformer sequence length for maximum efficiency. Our method demonstrates superior 3D generation results compared to previous baselines, while operating in a fraction of their runtime.