LATTE3D: Grootschalige geamortiseerde tekst-naar-verbeterde 3D-synthese
LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis
March 22, 2024
Auteurs: Kevin Xie, Jonathan Lorraine, Tianshi Cao, Jun Gao, James Lucas, Antonio Torralba, Sanja Fidler, Xiaohui Zeng
cs.AI
Samenvatting
Recente tekst-naar-3D-generatiebenaderingen leveren indrukwekkende 3D-resultaten op, maar vereisen tijdrovende optimalisatie die tot een uur per prompt kan duren. Geamortiseerde methoden zoals ATT3D optimaliseren meerdere prompts tegelijk om de efficiëntie te verbeteren, waardoor snelle tekst-naar-3D-synthese mogelijk wordt. Ze slagen er echter niet in om hoogfrequente geometrie- en textuurdetails vast te leggen en hebben moeite om op te schalen naar grote promptsets, waardoor ze slecht generaliseren. Wij introduceren LATTE3D, dat deze beperkingen aanpakt om snelle, hoogwaardige generatie op een aanzienlijk grotere promptset te realiseren. Centraal in onze methode staan 1) het bouwen van een schaalbare architectuur en 2) het benutten van 3D-data tijdens de optimalisatie via 3D-aware diffusiepriors, vormregularisatie en modelinitialisatie om robuustheid te bereiken voor diverse en complexe trainingsprompts. LATTE3D amortiseert zowel de generatie van neurale velden als van getextureerde oppervlakken om zeer gedetailleerde getextureerde meshes in één enkele forward pass te produceren. LATTE3D genereert 3D-objecten in 400ms en kan verder worden verbeterd met snelle optimalisatie tijdens de testfase.
English
Recent text-to-3D generation approaches produce impressive 3D results but
require time-consuming optimization that can take up to an hour per prompt.
Amortized methods like ATT3D optimize multiple prompts simultaneously to
improve efficiency, enabling fast text-to-3D synthesis. However, they cannot
capture high-frequency geometry and texture details and struggle to scale to
large prompt sets, so they generalize poorly. We introduce LATTE3D, addressing
these limitations to achieve fast, high-quality generation on a significantly
larger prompt set. Key to our method is 1) building a scalable architecture and
2) leveraging 3D data during optimization through 3D-aware diffusion priors,
shape regularization, and model initialization to achieve robustness to diverse
and complex training prompts. LATTE3D amortizes both neural field and textured
surface generation to produce highly detailed textured meshes in a single
forward pass. LATTE3D generates 3D objects in 400ms, and can be further
enhanced with fast test-time optimization.