SeqTex: Erzeugung von Mesh-Texturen in Videosequenzen
SeqTex: Generate Mesh Textures in Video Sequence
July 6, 2025
Autoren: Ze Yuan, Xin Yu, Yangtian Sun, Yuan-Chen Guo, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI
Zusammenfassung
Das Training nativer 3D-Texturgenerierungsmodelle bleibt ein grundlegendes, aber herausforderndes Problem, hauptsächlich aufgrund der begrenzten Verfügbarkeit von groß angelegten, hochwertigen 3D-Texturdatensätzen. Diese Knappheit behindert die Generalisierung auf reale Szenarien. Um dies zu beheben, passen die meisten bestehenden Methoden Foundation-Modelle zur Bildgenerierung an, um deren gelernte visuelle Prioritäten zu nutzen. Diese Ansätze erzeugen jedoch typischerweise nur Multi-View-Bilder und verlassen sich auf Nachbearbeitung, um UV-Texturkarten zu produzieren – eine wesentliche Darstellung in modernen Grafikpipelines. Solche zweistufigen Pipelines leiden oft unter Fehlerakkumulation und räumlichen Inkonsistenzen über die 3D-Oberfläche hinweg. In diesem Artikel stellen wir SeqTex vor, ein neuartiges End-to-End-Framework, das das visuelle Wissen in vortrainierten Video-Foundation-Modellen nutzt, um direkt vollständige UV-Texturkarten zu generieren. Im Gegensatz zu früheren Methoden, die die Verteilung von UV-Texturen isoliert modellieren, formuliert SeqTex die Aufgabe als ein Sequenzgenerierungsproblem um, wodurch das Modell die gemeinsame Verteilung von Multi-View-Renderings und UV-Texturen lernen kann. Dieser Designansatz überträgt effektiv die konsistenten Bildraum-Prioritäten aus Video-Foundation-Modellen in den UV-Bereich. Um die Leistung weiter zu verbessern, schlagen wir mehrere architektonische Innovationen vor: ein entkoppeltes Multi-View- und UV-Zweig-Design, geometrieinformierte Aufmerksamkeit zur Steuerung der domänenübergreifenden Feature-Ausrichtung und adaptive Token-Auflösung, um feine Texturdetails zu bewahren und gleichzeitig die Recheneffizienz aufrechtzuerhalten. Zusammen ermöglichen diese Komponenten SeqTex, die vortrainierten Video-Prioritäten vollständig zu nutzen und hochwertige UV-Texturkarten ohne Nachbearbeitung zu synthetisieren. Umfangreiche Experimente zeigen, dass SeqTex bei bild- und textbasierten 3D-Texturgenerierungsaufgaben state-of-the-art-Leistungen erzielt, mit überlegener 3D-Konsistenz, Textur-Geometrie-Ausrichtung und Generalisierung in realen Szenarien.
English
Training native 3D texture generative models remains a fundamental yet
challenging problem, largely due to the limited availability of large-scale,
high-quality 3D texture datasets. This scarcity hinders generalization to
real-world scenarios. To address this, most existing methods finetune
foundation image generative models to exploit their learned visual priors.
However, these approaches typically generate only multi-view images and rely on
post-processing to produce UV texture maps -- an essential representation in
modern graphics pipelines. Such two-stage pipelines often suffer from error
accumulation and spatial inconsistencies across the 3D surface. In this paper,
we introduce SeqTex, a novel end-to-end framework that leverages the visual
knowledge encoded in pretrained video foundation models to directly generate
complete UV texture maps. Unlike previous methods that model the distribution
of UV textures in isolation, SeqTex reformulates the task as a sequence
generation problem, enabling the model to learn the joint distribution of
multi-view renderings and UV textures. This design effectively transfers the
consistent image-space priors from video foundation models into the UV domain.
To further enhance performance, we propose several architectural innovations: a
decoupled multi-view and UV branch design, geometry-informed attention to guide
cross-domain feature alignment, and adaptive token resolution to preserve fine
texture details while maintaining computational efficiency. Together, these
components allow SeqTex to fully utilize pretrained video priors and synthesize
high-fidelity UV texture maps without the need for post-processing. Extensive
experiments show that SeqTex achieves state-of-the-art performance on both
image-conditioned and text-conditioned 3D texture generation tasks, with
superior 3D consistency, texture-geometry alignment, and real-world
generalization.