SeqTex: Genereer mesh-texturen in videosequenties
SeqTex: Generate Mesh Textures in Video Sequence
July 6, 2025
Auteurs: Ze Yuan, Xin Yu, Yangtian Sun, Yuan-Chen Guo, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI
Samenvatting
Het trainen van native 3D-textuur generatieve modellen blijft een fundamenteel maar uitdagend probleem, grotendeels vanwege de beperkte beschikbaarheid van grootschalige, hoogwaardige 3D-textuurdatasets. Deze schaarste belemmert de generalisatie naar realistische scenario's. Om dit aan te pakken, finetunen de meeste bestaande methodes foundation-modellen voor beeldgeneratie om gebruik te maken van hun geleerde visuele voorkennis. Deze benaderingen genereren echter meestal alleen multi-view beelden en vertrouwen op nabewerking om UV-textuurkaarten te produceren — een essentiële representatie in moderne graphics-pipelines. Dergelijke tweestaps-pipelines lijden vaak onder foutaccumulatie en ruimtelijke inconsistenties over het 3D-oppervlak. In dit artikel introduceren we SeqTex, een nieuw end-to-end framework dat de visuele kennis die is vastgelegd in vooraf getrainde videofoundation-modellen benut om direct complete UV-textuurkaarten te genereren. In tegenstelling tot eerdere methodes die de distributie van UV-texturen geïsoleerd modelleren, herformuleert SeqTex de taak als een sequentiegeneratieprobleem, waardoor het model de gezamenlijke distributie van multi-view renderings en UV-texturen kan leren. Dit ontwerp brengt effectief de consistente beeldruimte-voorkennis van videofoundation-modellen over naar het UV-domein. Om de prestaties verder te verbeteren, stellen we verschillende architectonische innovaties voor: een ontkoppeld multi-view en UV-takontwerp, geometrie-gestuurde aandacht om cross-domein feature-uitlijning te begeleiden, en adaptieve tokenresolutie om fijne textuurdetails te behouden terwijl de rekenkundige efficiëntie behouden blijft. Samen stellen deze componenten SeqTex in staat om volledig gebruik te maken van vooraf getrainde videovoorkennis en hoogwaardige UV-textuurkaarten te synthetiseren zonder nabewerking. Uitgebreide experimenten tonen aan dat SeqTex state-of-the-art prestaties bereikt bij zowel beeld-geconditioneerde als tekst-geconditioneerde 3D-textuurgeneratietaken, met superieure 3D-consistentie, textuur-geometrie-uitlijning en generalisatie naar de echte wereld.
English
Training native 3D texture generative models remains a fundamental yet
challenging problem, largely due to the limited availability of large-scale,
high-quality 3D texture datasets. This scarcity hinders generalization to
real-world scenarios. To address this, most existing methods finetune
foundation image generative models to exploit their learned visual priors.
However, these approaches typically generate only multi-view images and rely on
post-processing to produce UV texture maps -- an essential representation in
modern graphics pipelines. Such two-stage pipelines often suffer from error
accumulation and spatial inconsistencies across the 3D surface. In this paper,
we introduce SeqTex, a novel end-to-end framework that leverages the visual
knowledge encoded in pretrained video foundation models to directly generate
complete UV texture maps. Unlike previous methods that model the distribution
of UV textures in isolation, SeqTex reformulates the task as a sequence
generation problem, enabling the model to learn the joint distribution of
multi-view renderings and UV textures. This design effectively transfers the
consistent image-space priors from video foundation models into the UV domain.
To further enhance performance, we propose several architectural innovations: a
decoupled multi-view and UV branch design, geometry-informed attention to guide
cross-domain feature alignment, and adaptive token resolution to preserve fine
texture details while maintaining computational efficiency. Together, these
components allow SeqTex to fully utilize pretrained video priors and synthesize
high-fidelity UV texture maps without the need for post-processing. Extensive
experiments show that SeqTex achieves state-of-the-art performance on both
image-conditioned and text-conditioned 3D texture generation tasks, with
superior 3D consistency, texture-geometry alignment, and real-world
generalization.