TEXGen: Ein generatives Diffusionsmodell für Mesh-Texturen
TEXGen: a Generative Diffusion Model for Mesh Textures
November 22, 2024
Autoren: Xin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI
Zusammenfassung
Während hochwertige Texturkarten für realistisches 3D-Asset-Rendering unerlässlich sind, haben nur wenige Studien das direkte Lernen im Texturbereich untersucht, insbesondere an großen Datensätzen. In dieser Arbeit weichen wir vom herkömmlichen Ansatz ab, der auf vorab trainierten 2D-Diffusionsmodellen für die Optimierung von 3D-Texturen zur Testzeit beruht. Stattdessen konzentrieren wir uns auf das grundlegende Problem des Lernens im UV-Texturbereich selbst. Zum ersten Mal trainieren wir ein großes Diffusionsmodell, das in der Lage ist, hochauflösende Texturkarten auf direktem Wege zu generieren. Um effizientes Lernen in hochauflösenden UV-Räumen zu ermöglichen, schlagen wir eine skalierbare Netzwerkarchitektur vor, die Faltungen auf UV-Karten mit Aufmerksamkeitsschichten auf Punktewolken abwechselt. Unter Nutzung dieses architektonischen Designs trainieren wir ein 700 Millionen Parameter umfassendes Diffusionsmodell, das UV-Texturkarten erzeugen kann, die durch Texteingaben und Einzelbildansichten gesteuert werden. Nach dem Training unterstützt unser Modell natürlich verschiedene erweiterte Anwendungen, darunter textgesteuerte Texturausmalung, Texturausfüllung bei spärlichen Ansichten und textgesteuerte Textursynthese. Die Projektseite befindet sich unter http://cvmi-lab.github.io/TEXGen/.
English
While high-quality texture maps are essential for realistic 3D asset
rendering, few studies have explored learning directly in the texture space,
especially on large-scale datasets. In this work, we depart from the
conventional approach of relying on pre-trained 2D diffusion models for
test-time optimization of 3D textures. Instead, we focus on the fundamental
problem of learning in the UV texture space itself. For the first time, we
train a large diffusion model capable of directly generating high-resolution
texture maps in a feed-forward manner. To facilitate efficient learning in
high-resolution UV spaces, we propose a scalable network architecture that
interleaves convolutions on UV maps with attention layers on point clouds.
Leveraging this architectural design, we train a 700 million parameter
diffusion model that can generate UV texture maps guided by text prompts and
single-view images. Once trained, our model naturally supports various extended
applications, including text-guided texture inpainting, sparse-view texture
completion, and text-driven texture synthesis. Project page is at
http://cvmi-lab.github.io/TEXGen/.Summary
AI-Generated Summary