AToM : Génération amortie de maillages à partir de texte utilisant la diffusion 2D
AToM: Amortized Text-to-Mesh using 2D Diffusion
February 1, 2024
Auteurs: Guocheng Qian, Junli Cao, Aliaksandr Siarohin, Yash Kant, Chaoyang Wang, Michael Vasilkovsky, Hsin-Ying Lee, Yuwei Fang, Ivan Skorokhodov, Peiye Zhuang, Igor Gilitschenski, Jian Ren, Bernard Ghanem, Kfir Aberman, Sergey Tulyakov
cs.AI
Résumé
Nous présentons Amortized Text-to-Mesh (AToM), un cadre de génération de maillages à partir de texte en flux direct, optimisé simultanément pour plusieurs prompts textuels. Contrairement aux méthodes existantes de génération de texte-à-3D qui nécessitent souvent une optimisation longue et spécifique à chaque prompt et produisent généralement des représentations autres que des maillages polygonaux, AToM génère directement des maillages texturés de haute qualité en moins d'une seconde, avec une réduction d'environ 10 fois du coût d'entraînement, et généralise à des prompts non vus. Notre idée clé repose sur une architecture novatrice de génération de maillages à partir de texte basée sur des triplans, associée à une stratégie d'optimisation amortie en deux étapes qui assure un entraînement stable et permet une mise à l'échelle. À travers des expériences approfondies sur divers benchmarks de prompts, AToM surpasse significativement les approches amorties de pointe avec une précision plus de 4 fois supérieure (sur le jeu de données DF415) et produit des sorties 3D plus distinctes et de meilleure qualité. AToM démontre une forte généralisation, offrant des actifs 3D détaillés pour des prompts interpolés non vus sans nécessiter d'optimisation supplémentaire lors de l'inférence, contrairement aux solutions spécifiques à chaque prompt.
English
We introduce Amortized Text-to-Mesh (AToM), a feed-forward text-to-mesh
framework optimized across multiple text prompts simultaneously. In contrast to
existing text-to-3D methods that often entail time-consuming per-prompt
optimization and commonly output representations other than polygonal meshes,
AToM directly generates high-quality textured meshes in less than 1 second with
around 10 times reduction in the training cost, and generalizes to unseen
prompts. Our key idea is a novel triplane-based text-to-mesh architecture with
a two-stage amortized optimization strategy that ensures stable training and
enables scalability. Through extensive experiments on various prompt
benchmarks, AToM significantly outperforms state-of-the-art amortized
approaches with over 4 times higher accuracy (in DF415 dataset) and produces
more distinguishable and higher-quality 3D outputs. AToM demonstrates strong
generalizability, offering finegrained 3D assets for unseen interpolated
prompts without further optimization during inference, unlike per-prompt
solutions.