AToM: 2D 확산을 활용한 분할 상환 텍스트-투-메시
AToM: Amortized Text-to-Mesh using 2D Diffusion
February 1, 2024
저자: Guocheng Qian, Junli Cao, Aliaksandr Siarohin, Yash Kant, Chaoyang Wang, Michael Vasilkovsky, Hsin-Ying Lee, Yuwei Fang, Ivan Skorokhodov, Peiye Zhuang, Igor Gilitschenski, Jian Ren, Bernard Ghanem, Kfir Aberman, Sergey Tulyakov
cs.AI
초록
본 논문에서는 다중 텍스트 프롬프트에 걸쳐 동시에 최적화된 피드포워드(feed-forward) 텍스트-투-메시(text-to-mesh) 프레임워크인 Amortized Text-to-Mesh(AToM)를 소개한다. 기존의 텍스트-투-3D(text-to-3D) 방법들은 종종 프롬프트별로 시간 소모적인 최적화를 필요로 하며, 폴리곤 메시(polygonal mesh)가 아닌 다른 형태의 표현을 출력하는 경우가 많다. 반면, AToM은 1초 미만의 시간 내에 고품질의 텍스처가 적용된 메시를 직접 생성하며, 학습 비용을 약 10배 절감하고, 보지 않은(unseen) 프롬프트에 대해서도 일반화가 가능하다. 본 연구의 핵심 아이디어는 안정적인 학습을 보장하고 확장성을 가능하게 하는 두 단계의 분할 최적화(amortized optimization) 전략을 갖춘 새로운 트라이플레인(triplane) 기반 텍스트-투-메시 아키텍처이다. 다양한 프롬프트 벤치마크에 대한 광범위한 실험을 통해, AToM은 최신 분할 최적화 접근법을 크게 능가하며(DF415 데이터셋에서 4배 이상의 정확도 향상), 더욱 뚜렷하고 고품질의 3D 출력을 생성한다. AToM은 강력한 일반화 능력을 보여주며, 프롬프트별 최적화 솔루션과 달리 추론(inference) 과정에서 추가적인 최적화 없이도 보지 않은 보간된(interpolated) 프롬프트에 대해 세밀한 3D 자산을 제공한다.
English
We introduce Amortized Text-to-Mesh (AToM), a feed-forward text-to-mesh
framework optimized across multiple text prompts simultaneously. In contrast to
existing text-to-3D methods that often entail time-consuming per-prompt
optimization and commonly output representations other than polygonal meshes,
AToM directly generates high-quality textured meshes in less than 1 second with
around 10 times reduction in the training cost, and generalizes to unseen
prompts. Our key idea is a novel triplane-based text-to-mesh architecture with
a two-stage amortized optimization strategy that ensures stable training and
enables scalability. Through extensive experiments on various prompt
benchmarks, AToM significantly outperforms state-of-the-art amortized
approaches with over 4 times higher accuracy (in DF415 dataset) and produces
more distinguishable and higher-quality 3D outputs. AToM demonstrates strong
generalizability, offering finegrained 3D assets for unseen interpolated
prompts without further optimization during inference, unlike per-prompt
solutions.