SeqTex: Generazione di Texture Mesh in Sequenze Video
SeqTex: Generate Mesh Textures in Video Sequence
July 6, 2025
Autori: Ze Yuan, Xin Yu, Yangtian Sun, Yuan-Chen Guo, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI
Abstract
L'addestramento di modelli generativi nativi per texture 3D rimane un problema fondamentale ma impegnativo, principalmente a causa della limitata disponibilità di dataset su larga scala e di alta qualità per texture 3D. Questa scarsità ostacola la generalizzazione a scenari del mondo reale. Per affrontare questo problema, la maggior parte dei metodi esistenti effettua il fine-tuning di modelli generativi di immagini di base per sfruttare i loro prior visivi appresi. Tuttavia, questi approcci generano tipicamente solo immagini multi-vista e si affidano a post-elaborazioni per produrre mappe di texture UV, una rappresentazione essenziale nelle pipeline grafiche moderne. Tali pipeline a due stadi spesso soffrono di accumulo di errori e inconsistenze spaziali sulla superficie 3D. In questo articolo, introduciamo SeqTex, un nuovo framework end-to-end che sfrutta la conoscenza visiva codificata in modelli di base pre-addestrati per video per generare direttamente mappe di texture UV complete. A differenza dei metodi precedenti che modellano la distribuzione delle texture UV in isolamento, SeqTex riformula il compito come un problema di generazione sequenziale, consentendo al modello di apprendere la distribuzione congiunta di rendering multi-vista e texture UV. Questo design trasferisce efficacemente i prior coerenti nello spazio delle immagini dai modelli di base per video al dominio UV. Per migliorare ulteriormente le prestazioni, proponiamo diverse innovazioni architetturali: un design a rami separati per multi-vista e UV, un'attenzione informata dalla geometria per guidare l'allineamento delle feature cross-dominio e una risoluzione adattiva dei token per preservare i dettagli fini delle texture mantenendo l'efficienza computazionale. Insieme, questi componenti consentono a SeqTex di sfruttare appieno i prior pre-addestrati per video e sintetizzare mappe di texture UV ad alta fedeltà senza la necessità di post-elaborazione. Esperimenti estensivi dimostrano che SeqTex raggiunge prestazioni all'avanguardia sia in compiti di generazione di texture 3D condizionati da immagini che da testo, con una superiore consistenza 3D, allineamento texture-geometria e generalizzazione al mondo reale.
English
Training native 3D texture generative models remains a fundamental yet
challenging problem, largely due to the limited availability of large-scale,
high-quality 3D texture datasets. This scarcity hinders generalization to
real-world scenarios. To address this, most existing methods finetune
foundation image generative models to exploit their learned visual priors.
However, these approaches typically generate only multi-view images and rely on
post-processing to produce UV texture maps -- an essential representation in
modern graphics pipelines. Such two-stage pipelines often suffer from error
accumulation and spatial inconsistencies across the 3D surface. In this paper,
we introduce SeqTex, a novel end-to-end framework that leverages the visual
knowledge encoded in pretrained video foundation models to directly generate
complete UV texture maps. Unlike previous methods that model the distribution
of UV textures in isolation, SeqTex reformulates the task as a sequence
generation problem, enabling the model to learn the joint distribution of
multi-view renderings and UV textures. This design effectively transfers the
consistent image-space priors from video foundation models into the UV domain.
To further enhance performance, we propose several architectural innovations: a
decoupled multi-view and UV branch design, geometry-informed attention to guide
cross-domain feature alignment, and adaptive token resolution to preserve fine
texture details while maintaining computational efficiency. Together, these
components allow SeqTex to fully utilize pretrained video priors and synthesize
high-fidelity UV texture maps without the need for post-processing. Extensive
experiments show that SeqTex achieves state-of-the-art performance on both
image-conditioned and text-conditioned 3D texture generation tasks, with
superior 3D consistency, texture-geometry alignment, and real-world
generalization.