ChatPaper.aiChatPaper

AToM: Generazione Ammortizzata da Testo a Mesh utilizzando Diffusione 2D

AToM: Amortized Text-to-Mesh using 2D Diffusion

February 1, 2024
Autori: Guocheng Qian, Junli Cao, Aliaksandr Siarohin, Yash Kant, Chaoyang Wang, Michael Vasilkovsky, Hsin-Ying Lee, Yuwei Fang, Ivan Skorokhodov, Peiye Zhuang, Igor Gilitschenski, Jian Ren, Bernard Ghanem, Kfir Aberman, Sergey Tulyakov
cs.AI

Abstract

Introduciamo Amortized Text-to-Mesh (AToM), un framework feed-forward da testo a mesh ottimizzato per più prompt testuali simultaneamente. A differenza dei metodi esistenti da testo a 3D, che spesso richiedono un'ottimizzazione lunga e specifica per ogni prompt e producono comunemente rappresentazioni diverse dalle mesh poligonali, AToM genera direttamente mesh di alta qualità con texture in meno di 1 secondo, riducendo i costi di addestramento di circa 10 volte, e si generalizza a prompt non visti. La nostra idea chiave è una nuova architettura da testo a mesh basata su triplane con una strategia di ottimizzazione a due stadi che garantisce un addestramento stabile e consente scalabilità. Attraverso esperimenti estesi su vari benchmark di prompt, AToM supera significativamente gli approcci amortized allo stato dell'arte con un'accuratezza oltre 4 volte superiore (nel dataset DF415) e produce output 3D più distinguibili e di qualità superiore. AToM dimostra una forte generalizzabilità, offrendo asset 3D dettagliati per prompt interpolati non visti senza ulteriore ottimizzazione durante l'inferenza, a differenza delle soluzioni specifiche per prompt.
English
We introduce Amortized Text-to-Mesh (AToM), a feed-forward text-to-mesh framework optimized across multiple text prompts simultaneously. In contrast to existing text-to-3D methods that often entail time-consuming per-prompt optimization and commonly output representations other than polygonal meshes, AToM directly generates high-quality textured meshes in less than 1 second with around 10 times reduction in the training cost, and generalizes to unseen prompts. Our key idea is a novel triplane-based text-to-mesh architecture with a two-stage amortized optimization strategy that ensures stable training and enables scalability. Through extensive experiments on various prompt benchmarks, AToM significantly outperforms state-of-the-art amortized approaches with over 4 times higher accuracy (in DF415 dataset) and produces more distinguishable and higher-quality 3D outputs. AToM demonstrates strong generalizability, offering finegrained 3D assets for unseen interpolated prompts without further optimization during inference, unlike per-prompt solutions.
PDF113December 15, 2024