TEXGen:メッシュテクスチャのための生成拡散モデル
TEXGen: a Generative Diffusion Model for Mesh Textures
November 22, 2024
著者: Xin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI
要旨
高品質なテクスチャマップはリアルな3Dアセットのレンダリングに不可欠ですが、大規模データセットにおいてテクスチャ空間での直接学習を探究した研究はほとんどありませんでした。本研究では、3Dテクスチャのテスト時最適化に事前学習された2D拡散モデルに依存する従来のアプローチから脱却します。代わりに、UVテクスチャ空間そのものでの学習という基本的な問題に焦点を当てます。初めて、フィードフォワード方式で高解像度のテクスチャマップを直接生成できる大規模な拡散モデルを訓練します。高解像度UV空間での効率的な学習を促進するために、UVマップ上での畳み込みとポイントクラウド上での注意層を交互に配置するスケーラブルなネットワークアーキテクチャを提案します。この設計を活用して、テキストプロンプトや単一視点画像に誘導されたUVテクスチャマップを生成できる7億パラメータの拡散モデルを訓練します。訓練後、モデルは自然にテキストによるテクスチャ修復、疎な視点のテクスチャ補完、およびテキスト駆動のテクスチャ合成など、さまざまな拡張アプリケーションをサポートします。プロジェクトページはこちら:http://cvmi-lab.github.io/TEXGen/。
English
While high-quality texture maps are essential for realistic 3D asset
rendering, few studies have explored learning directly in the texture space,
especially on large-scale datasets. In this work, we depart from the
conventional approach of relying on pre-trained 2D diffusion models for
test-time optimization of 3D textures. Instead, we focus on the fundamental
problem of learning in the UV texture space itself. For the first time, we
train a large diffusion model capable of directly generating high-resolution
texture maps in a feed-forward manner. To facilitate efficient learning in
high-resolution UV spaces, we propose a scalable network architecture that
interleaves convolutions on UV maps with attention layers on point clouds.
Leveraging this architectural design, we train a 700 million parameter
diffusion model that can generate UV texture maps guided by text prompts and
single-view images. Once trained, our model naturally supports various extended
applications, including text-guided texture inpainting, sparse-view texture
completion, and text-driven texture synthesis. Project page is at
http://cvmi-lab.github.io/TEXGen/.Summary
AI-Generated Summary