ChatPaper.aiChatPaper

AToM: Texto a Malla Amortizado utilizando Difusión 2D

AToM: Amortized Text-to-Mesh using 2D Diffusion

February 1, 2024
Autores: Guocheng Qian, Junli Cao, Aliaksandr Siarohin, Yash Kant, Chaoyang Wang, Michael Vasilkovsky, Hsin-Ying Lee, Yuwei Fang, Ivan Skorokhodov, Peiye Zhuang, Igor Gilitschenski, Jian Ren, Bernard Ghanem, Kfir Aberman, Sergey Tulyakov
cs.AI

Resumen

Presentamos Amortized Text-to-Mesh (AToM), un marco de texto-a-malla de propagación directa optimizado simultáneamente para múltiples indicaciones de texto. A diferencia de los métodos existentes de texto-a-3D, que a menudo implican una optimización lenta por indicación y comúnmente generan representaciones distintas a mallas poligonales, AToM genera directamente mallas texturizadas de alta calidad en menos de 1 segundo, con una reducción de aproximadamente 10 veces en el costo de entrenamiento, y generaliza a indicaciones no vistas. Nuestra idea clave es una arquitectura novedosa de texto-a-malla basada en triplanos con una estrategia de optimización amortizada en dos etapas que garantiza un entrenamiento estable y permite escalabilidad. A través de extensos experimentos en varios benchmarks de indicaciones, AToM supera significativamente a los enfoques amortizados más avanzados, con una precisión más de 4 veces mayor (en el conjunto de datos DF415) y produce salidas 3D más distinguibles y de mayor calidad. AToM demuestra una fuerte generalizabilidad, ofreciendo activos 3D detallados para indicaciones interpoladas no vistas sin necesidad de optimización adicional durante la inferencia, a diferencia de las soluciones por indicación.
English
We introduce Amortized Text-to-Mesh (AToM), a feed-forward text-to-mesh framework optimized across multiple text prompts simultaneously. In contrast to existing text-to-3D methods that often entail time-consuming per-prompt optimization and commonly output representations other than polygonal meshes, AToM directly generates high-quality textured meshes in less than 1 second with around 10 times reduction in the training cost, and generalizes to unseen prompts. Our key idea is a novel triplane-based text-to-mesh architecture with a two-stage amortized optimization strategy that ensures stable training and enables scalability. Through extensive experiments on various prompt benchmarks, AToM significantly outperforms state-of-the-art amortized approaches with over 4 times higher accuracy (in DF415 dataset) and produces more distinguishable and higher-quality 3D outputs. AToM demonstrates strong generalizability, offering finegrained 3D assets for unseen interpolated prompts without further optimization during inference, unlike per-prompt solutions.
PDF113December 15, 2024