Turbo3D: Ultrasnelle Tekst-naar-3D Generatie
Turbo3D: Ultra-fast Text-to-3D Generation
December 5, 2024
Auteurs: Hanzhe Hu, Tianwei Yin, Fujun Luan, Yiwei Hu, Hao Tan, Zexiang Xu, Sai Bi, Shubham Tulsiani, Kai Zhang
cs.AI
Samenvatting
Wij presenteren Turbo3D, een ultrasnel tekst-naar-3D-systeem dat in staat is om hoogwaardige Gaussian splatting-assets te genereren in minder dan één seconde. Turbo3D maakt gebruik van een snelle 4-stappen, 4-weergave diffusiegenerator en een efficiënte feedforward Gaussian-reconstructor, die beide opereren in latente ruimte. De 4-stappen, 4-weergave generator is een studentmodel gedistilleerd via een nieuw Dual-Teacher benadering, die de student aanmoedigt om weergaveconsistentie te leren van een multi-weergave leraar en fotorealisme van een enkele-weergave leraar. Door de invoer van de Gaussian reconstructor te verplaatsen van pixelruimte naar latente ruimte, elimineren we de extra beelddecoderingstijd en halveren we de lengte van de transformer-sequentie voor maximale efficiëntie. Onze methode toont superieure 3D-generatieresultaten in vergelijking met eerdere baselines, terwijl deze werkt in een fractie van hun looptijd.
English
We present Turbo3D, an ultra-fast text-to-3D system capable of generating
high-quality Gaussian splatting assets in under one second. Turbo3D employs a
rapid 4-step, 4-view diffusion generator and an efficient feed-forward Gaussian
reconstructor, both operating in latent space. The 4-step, 4-view generator is
a student model distilled through a novel Dual-Teacher approach, which
encourages the student to learn view consistency from a multi-view teacher and
photo-realism from a single-view teacher. By shifting the Gaussian
reconstructor's inputs from pixel space to latent space, we eliminate the extra
image decoding time and halve the transformer sequence length for maximum
efficiency. Our method demonstrates superior 3D generation results compared to
previous baselines, while operating in a fraction of their runtime.