AToM: Amortisierte Text-zu-Mesh-Erzeugung mittels 2D-Diffusion
AToM: Amortized Text-to-Mesh using 2D Diffusion
February 1, 2024
Autoren: Guocheng Qian, Junli Cao, Aliaksandr Siarohin, Yash Kant, Chaoyang Wang, Michael Vasilkovsky, Hsin-Ying Lee, Yuwei Fang, Ivan Skorokhodov, Peiye Zhuang, Igor Gilitschenski, Jian Ren, Bernard Ghanem, Kfir Aberman, Sergey Tulyakov
cs.AI
Zusammenfassung
Wir stellen Amortized Text-to-Mesh (AToM) vor, ein vorwärtsgerichtetes Text-zu-Mesh-Framework, das gleichzeitig über mehrere Textprompts hinweg optimiert wird. Im Gegensatz zu bestehenden Text-zu-3D-Methoden, die oft zeitaufwändige Optimierungen pro Prompt erfordern und häufig Darstellungen außerhalb von polygonalen Meshes liefern, generiert AToM direkt hochwertige texturierte Meshes in weniger als einer Sekunde mit einer etwa 10-fachen Reduzierung der Trainingskosten und verallgemeinert auf unbekannte Prompts. Unser zentraler Ansatz ist eine neuartige Triplane-basierte Text-zu-Mesh-Architektur mit einer zweistufigen amortisierten Optimierungsstrategie, die stabiles Training gewährleistet und Skalierbarkeit ermöglicht. Durch umfangreiche Experimente mit verschiedenen Prompt-Benchmarks übertrifft AToM deutlich die besten amortisierten Ansätze mit einer über 4-fach höheren Genauigkeit (im DF415-Datensatz) und erzeugt unterscheidbarere und qualitativ hochwertigere 3D-Ergebnisse. AToM zeigt eine starke Generalisierbarkeit und bietet fein abgestufte 3D-Assets für unbekannte interpolierte Prompts ohne weitere Optimierung während der Inferenz, im Gegensatz zu pro-Prompt-Lösungen.
English
We introduce Amortized Text-to-Mesh (AToM), a feed-forward text-to-mesh
framework optimized across multiple text prompts simultaneously. In contrast to
existing text-to-3D methods that often entail time-consuming per-prompt
optimization and commonly output representations other than polygonal meshes,
AToM directly generates high-quality textured meshes in less than 1 second with
around 10 times reduction in the training cost, and generalizes to unseen
prompts. Our key idea is a novel triplane-based text-to-mesh architecture with
a two-stage amortized optimization strategy that ensures stable training and
enables scalability. Through extensive experiments on various prompt
benchmarks, AToM significantly outperforms state-of-the-art amortized
approaches with over 4 times higher accuracy (in DF415 dataset) and produces
more distinguishable and higher-quality 3D outputs. AToM demonstrates strong
generalizability, offering finegrained 3D assets for unseen interpolated
prompts without further optimization during inference, unlike per-prompt
solutions.