SeqTex : Génération de textures de maillage dans une séquence vidéo
SeqTex: Generate Mesh Textures in Video Sequence
July 6, 2025
Auteurs: Ze Yuan, Xin Yu, Yangtian Sun, Yuan-Chen Guo, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI
Résumé
L'entraînement de modèles génératifs de textures 3D natives reste un problème fondamental mais difficile, principalement en raison de la disponibilité limitée de jeux de données de textures 3D à grande échelle et de haute qualité. Cette rareté entrave la généralisation à des scénarios réels. Pour y remédier, la plupart des méthodes existantes affinent des modèles génératifs d'images de base pour exploiter leurs connaissances visuelles préalables. Cependant, ces approches génèrent généralement uniquement des images multi-vues et s'appuient sur un post-traitement pour produire des cartes de textures UV -- une représentation essentielle dans les pipelines graphiques modernes. Ces pipelines en deux étapes souffrent souvent d'une accumulation d'erreurs et d'incohérences spatiales à travers la surface 3D. Dans cet article, nous présentons SeqTex, un nouveau cadre end-to-end qui exploite les connaissances visuelles encodées dans des modèles de base pré-entraînés pour la vidéo afin de générer directement des cartes de textures UV complètes. Contrairement aux méthodes précédentes qui modélisent la distribution des textures UV de manière isolée, SeqTex reformule la tâche comme un problème de génération de séquences, permettant au modèle d'apprendre la distribution conjointe des rendus multi-vues et des textures UV. Cette conception transfère efficacement les connaissances cohérentes de l'espace image des modèles de base pour la vidéo dans le domaine UV. Pour améliorer encore les performances, nous proposons plusieurs innovations architecturales : une conception découplée avec des branches multi-vues et UV, une attention guidée par la géométrie pour aligner les caractéristiques inter-domaines, et une résolution adaptative des tokens pour préserver les détails fins des textures tout en maintenant l'efficacité computationnelle. Ensemble, ces composants permettent à SeqTex d'utiliser pleinement les connaissances pré-entraînées pour la vidéo et de synthétiser des cartes de textures UV haute fidélité sans nécessiter de post-traitement. Des expériences approfondies montrent que SeqTex atteint des performances de pointe dans les tâches de génération de textures 3D conditionnées par l'image et par le texte, avec une cohérence 3D supérieure, un alignement texture-géométrie et une généralisation au monde réel améliorés.
English
Training native 3D texture generative models remains a fundamental yet
challenging problem, largely due to the limited availability of large-scale,
high-quality 3D texture datasets. This scarcity hinders generalization to
real-world scenarios. To address this, most existing methods finetune
foundation image generative models to exploit their learned visual priors.
However, these approaches typically generate only multi-view images and rely on
post-processing to produce UV texture maps -- an essential representation in
modern graphics pipelines. Such two-stage pipelines often suffer from error
accumulation and spatial inconsistencies across the 3D surface. In this paper,
we introduce SeqTex, a novel end-to-end framework that leverages the visual
knowledge encoded in pretrained video foundation models to directly generate
complete UV texture maps. Unlike previous methods that model the distribution
of UV textures in isolation, SeqTex reformulates the task as a sequence
generation problem, enabling the model to learn the joint distribution of
multi-view renderings and UV textures. This design effectively transfers the
consistent image-space priors from video foundation models into the UV domain.
To further enhance performance, we propose several architectural innovations: a
decoupled multi-view and UV branch design, geometry-informed attention to guide
cross-domain feature alignment, and adaptive token resolution to preserve fine
texture details while maintaining computational efficiency. Together, these
components allow SeqTex to fully utilize pretrained video priors and synthesize
high-fidelity UV texture maps without the need for post-processing. Extensive
experiments show that SeqTex achieves state-of-the-art performance on both
image-conditioned and text-conditioned 3D texture generation tasks, with
superior 3D consistency, texture-geometry alignment, and real-world
generalization.