SeqTex: Генерация текстур сетки в видеопоследовательности
SeqTex: Generate Mesh Textures in Video Sequence
July 6, 2025
Авторы: Ze Yuan, Xin Yu, Yangtian Sun, Yuan-Chen Guo, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI
Аннотация
Обучение нативных генеративных моделей для создания 3D текстур остается фундаментальной, но сложной задачей, в основном из-за ограниченной доступности крупномасштабных, высококачественных наборов данных 3D текстур. Этот дефицит затрудняет обобщение на реальные сценарии. Чтобы решить эту проблему, большинство существующих методов дообучают базовые модели генерации изображений, чтобы использовать их изученные визуальные априорные знания. Однако такие подходы обычно генерируют только многовидовые изображения и полагаются на постобработку для создания UV-текстурных карт — важного представления в современных графических конвейерах. Такие двухэтапные конвейеры часто страдают от накопления ошибок и пространственных несоответствий на 3D поверхности. В данной работе мы представляем SeqTex, новый сквозной фреймворк, который использует визуальные знания, закодированные в предобученных моделях для работы с видео, чтобы напрямую генерировать полные UV-текстурные карты. В отличие от предыдущих методов, которые моделируют распределение UV текстур изолированно, SeqTex переформулирует задачу как проблему генерации последовательностей, позволяя модели изучать совместное распределение многовидовых рендеров и UV текстур. Такой подход эффективно переносит согласованные априорные знания из пространства изображений, заложенные в моделях для видео, в UV-домен. Для дальнейшего повышения производительности мы предлагаем несколько архитектурных инноваций: разделенную структуру с ветвями для многовидовых изображений и UV текстур, геометрически-информированное внимание для управления выравниванием признаков между доменами и адаптивное разрешение токенов для сохранения деталей текстур при поддержании вычислительной эффективности. Вместе эти компоненты позволяют SeqTex полностью использовать предобученные априорные знания для видео и синтезировать высококачественные UV-текстурные карты без необходимости постобработки. Многочисленные эксперименты показывают, что SeqTex достигает наилучших результатов в задачах генерации 3D текстур, как на основе изображений, так и на основе текста, с превосходной 3D-согласованностью, выравниванием текстур и геометрии, а также обобщением на реальные сценарии.
English
Training native 3D texture generative models remains a fundamental yet
challenging problem, largely due to the limited availability of large-scale,
high-quality 3D texture datasets. This scarcity hinders generalization to
real-world scenarios. To address this, most existing methods finetune
foundation image generative models to exploit their learned visual priors.
However, these approaches typically generate only multi-view images and rely on
post-processing to produce UV texture maps -- an essential representation in
modern graphics pipelines. Such two-stage pipelines often suffer from error
accumulation and spatial inconsistencies across the 3D surface. In this paper,
we introduce SeqTex, a novel end-to-end framework that leverages the visual
knowledge encoded in pretrained video foundation models to directly generate
complete UV texture maps. Unlike previous methods that model the distribution
of UV textures in isolation, SeqTex reformulates the task as a sequence
generation problem, enabling the model to learn the joint distribution of
multi-view renderings and UV textures. This design effectively transfers the
consistent image-space priors from video foundation models into the UV domain.
To further enhance performance, we propose several architectural innovations: a
decoupled multi-view and UV branch design, geometry-informed attention to guide
cross-domain feature alignment, and adaptive token resolution to preserve fine
texture details while maintaining computational efficiency. Together, these
components allow SeqTex to fully utilize pretrained video priors and synthesize
high-fidelity UV texture maps without the need for post-processing. Extensive
experiments show that SeqTex achieves state-of-the-art performance on both
image-conditioned and text-conditioned 3D texture generation tasks, with
superior 3D consistency, texture-geometry alignment, and real-world
generalization.