AToM: Amortisierte Text-zu-Mesh-Erzeugung mittels 2D-Diffusion

papers.abstract

Wir stellen Amortized Text-to-Mesh (AToM) vor, ein vorwärtsgerichtetes Text-zu-Mesh-Framework, das gleichzeitig über mehrere Textprompts hinweg optimiert wird. Im Gegensatz zu bestehenden Text-zu-3D-Methoden, die oft zeitaufwändige Optimierungen pro Prompt erfordern und häufig Darstellungen außerhalb von polygonalen Meshes liefern, generiert AToM direkt hochwertige texturierte Meshes in weniger als einer Sekunde mit einer etwa 10-fachen Reduzierung der Trainingskosten und verallgemeinert auf unbekannte Prompts. Unser zentraler Ansatz ist eine neuartige Triplane-basierte Text-zu-Mesh-Architektur mit einer zweistufigen amortisierten Optimierungsstrategie, die stabiles Training gewährleistet und Skalierbarkeit ermöglicht. Durch umfangreiche Experimente mit verschiedenen Prompt-Benchmarks übertrifft AToM deutlich die besten amortisierten Ansätze mit einer über 4-fach höheren Genauigkeit (im DF415-Datensatz) und erzeugt unterscheidbarere und qualitativ hochwertigere 3D-Ergebnisse. AToM zeigt eine starke Generalisierbarkeit und bietet fein abgestufte 3D-Assets für unbekannte interpolierte Prompts ohne weitere Optimierung während der Inferenz, im Gegensatz zu pro-Prompt-Lösungen.

English

We introduce Amortized Text-to-Mesh (AToM), a feed-forward text-to-mesh framework optimized across multiple text prompts simultaneously. In contrast to existing text-to-3D methods that often entail time-consuming per-prompt optimization and commonly output representations other than polygonal meshes, AToM directly generates high-quality textured meshes in less than 1 second with around 10 times reduction in the training cost, and generalizes to unseen prompts. Our key idea is a novel triplane-based text-to-mesh architecture with a two-stage amortized optimization strategy that ensures stable training and enables scalability. Through extensive experiments on various prompt benchmarks, AToM significantly outperforms state-of-the-art amortized approaches with over 4 times higher accuracy (in DF415 dataset) and produces more distinguishable and higher-quality 3D outputs. AToM demonstrates strong generalizability, offering finegrained 3D assets for unseen interpolated prompts without further optimization during inference, unlike per-prompt solutions.

AToM: Amortisierte Text-zu-Mesh-Erzeugung mittels 2D-Diffusion

AToM: Amortized Text-to-Mesh using 2D Diffusion

papers.abstract

Support