LATTE3D: Sintesi Ammortizzata su Larga Scala da Testo a Enhanced3D

Abstract

I recenti approcci di generazione da testo a 3D producono risultati 3D impressionanti, ma richiedono un'ottimizzazione dispendiosa in termini di tempo che può richiedere fino a un'ora per prompt. Metodi ammortizzati come ATT3D ottimizzano più prompt simultaneamente per migliorare l'efficienza, consentendo una sintesi rapida da testo a 3D. Tuttavia, non riescono a catturare dettagli geometrici e di texture ad alta frequenza e faticano a scalare su grandi set di prompt, generalizzando in modo insufficiente. Introduciamo LATTE3D, affrontando queste limitazioni per ottenere una generazione rapida e di alta qualità su un set di prompt significativamente più ampio. Elemento chiave del nostro metodo è 1) la costruzione di un'architettura scalabile e 2) lo sfruttamento di dati 3D durante l'ottimizzazione attraverso prior di diffusione 3D-aware, regolarizzazione della forma e inizializzazione del modello per ottenere robustezza rispetto a prompt di addestramento complessi e diversificati. LATTE3D ammortizza sia la generazione di campi neurali che di superfici texturizzate per produrre mesh texturizzate altamente dettagliate in un singolo passaggio in avanti. LATTE3D genera oggetti 3D in 400ms e può essere ulteriormente migliorato con una rapida ottimizzazione al momento del test.

English

Recent text-to-3D generation approaches produce impressive 3D results but require time-consuming optimization that can take up to an hour per prompt. Amortized methods like ATT3D optimize multiple prompts simultaneously to improve efficiency, enabling fast text-to-3D synthesis. However, they cannot capture high-frequency geometry and texture details and struggle to scale to large prompt sets, so they generalize poorly. We introduce LATTE3D, addressing these limitations to achieve fast, high-quality generation on a significantly larger prompt set. Key to our method is 1) building a scalable architecture and 2) leveraging 3D data during optimization through 3D-aware diffusion priors, shape regularization, and model initialization to achieve robustness to diverse and complex training prompts. LATTE3D amortizes both neural field and textured surface generation to produce highly detailed textured meshes in a single forward pass. LATTE3D generates 3D objects in 400ms, and can be further enhanced with fast test-time optimization.

LATTE3D: Sintesi Ammortizzata su Larga Scala da Testo a Enhanced3D

LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis

Abstract

Support