ChatPaper.aiChatPaper

Instant3D: Snelle Tekst-naar-3D met Sparse-View Generatie en Groot Reconstructiemodel

Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model

November 10, 2023
Auteurs: Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, Sai Bi
cs.AI

Samenvatting

Text-to-3D met diffusiemodellen heeft de afgelopen jaren opmerkelijke vooruitgang geboekt. Bestaande methodes vertrouwen echter ofwel op score-distillatie-gebaseerde optimalisatie, wat lijdt onder trage inferentie, lage diversiteit en Janus-problemen, of zijn feed-forward methodes die resultaten van lage kwaliteit genereren vanwege de schaarste aan 3D-trainingsdata. In dit artikel stellen we Instant3D voor, een nieuwe methode die hoogwaardige en diverse 3D-assets genereert uit tekstprompts op een feed-forward manier. We hanteren een tweestappenparadigma, waarbij eerst een beperkte set van vier gestructureerde en consistente views uit tekst in één keer wordt gegenereerd met een fijn afgesteld 2D text-to-image diffusiemodel, en vervolgens direct de NeRF wordt gereconstrueerd uit de gegenereerde afbeeldingen met een nieuwe transformer-gebaseerde sparse-view reconstructor. Door uitgebreide experimenten tonen we aan dat onze methode hoogwaardige, diverse en Janus-vrije 3D-assets kan genereren binnen 20 seconden, wat twee ordes van grootte sneller is dan eerdere optimalisatie-gebaseerde methodes die 1 tot 10 uur kunnen duren. Onze projectwebpagina: https://jiahao.ai/instant3d/.
English
Text-to-3D with diffusion models have achieved remarkable progress in recent years. However, existing methods either rely on score distillation-based optimization which suffer from slow inference, low diversity and Janus problems, or are feed-forward methods that generate low quality results due to the scarcity of 3D training data. In this paper, we propose Instant3D, a novel method that generates high-quality and diverse 3D assets from text prompts in a feed-forward manner. We adopt a two-stage paradigm, which first generates a sparse set of four structured and consistent views from text in one shot with a fine-tuned 2D text-to-image diffusion model, and then directly regresses the NeRF from the generated images with a novel transformer-based sparse-view reconstructor. Through extensive experiments, we demonstrate that our method can generate high-quality, diverse and Janus-free 3D assets within 20 seconds, which is two order of magnitude faster than previous optimization-based methods that can take 1 to 10 hours. Our project webpage: https://jiahao.ai/instant3d/.
PDF334December 15, 2024