SeqTex: Generación de texturas de malla en secuencias de video
SeqTex: Generate Mesh Textures in Video Sequence
July 6, 2025
Autores: Ze Yuan, Xin Yu, Yangtian Sun, Yuan-Chen Guo, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI
Resumen
El entrenamiento de modelos generativos nativos de texturas 3D sigue siendo un problema fundamental pero desafiante, principalmente debido a la disponibilidad limitada de conjuntos de datos de texturas 3D a gran escala y de alta calidad. Esta escasez dificulta la generalización a escenarios del mundo real. Para abordar esto, la mayoría de los métodos existentes ajustan modelos generativos de imágenes base para aprovechar sus conocimientos visuales previamente aprendidos. Sin embargo, estos enfoques generalmente generan solo imágenes de múltiples vistas y dependen de un procesamiento posterior para producir mapas de texturas UV, una representación esencial en las tuberías gráficas modernas. Estas tuberías de dos etapas a menudo sufren de acumulación de errores e inconsistencias espaciales en la superficie 3D. En este artículo, presentamos SeqTex, un marco novedoso de extremo a extremo que aprovecha el conocimiento visual codificado en modelos base de video preentrenados para generar directamente mapas de texturas UV completos. A diferencia de los métodos anteriores que modelan la distribución de texturas UV de forma aislada, SeqTex reformula la tarea como un problema de generación de secuencias, permitiendo que el modelo aprenda la distribución conjunta de renderizaciones de múltiples vistas y texturas UV. Este diseño transfiere efectivamente los conocimientos consistentes del espacio de imagen de los modelos base de video al dominio UV. Para mejorar aún más el rendimiento, proponemos varias innovaciones arquitectónicas: un diseño de ramas desacopladas para múltiples vistas y UV, atención informada por geometría para guiar la alineación de características entre dominios, y resolución de tokens adaptativa para preservar detalles finos de textura mientras se mantiene la eficiencia computacional. Juntos, estos componentes permiten que SeqTex utilice completamente los conocimientos previos de video preentrenados y sintetice mapas de texturas UV de alta fidelidad sin necesidad de procesamiento posterior. Experimentos extensos muestran que SeqTex logra un rendimiento de vanguardia en tareas de generación de texturas 3D condicionadas por imágenes y por texto, con una consistencia 3D superior, alineación textura-geometría y generalización en el mundo real.
English
Training native 3D texture generative models remains a fundamental yet
challenging problem, largely due to the limited availability of large-scale,
high-quality 3D texture datasets. This scarcity hinders generalization to
real-world scenarios. To address this, most existing methods finetune
foundation image generative models to exploit their learned visual priors.
However, these approaches typically generate only multi-view images and rely on
post-processing to produce UV texture maps -- an essential representation in
modern graphics pipelines. Such two-stage pipelines often suffer from error
accumulation and spatial inconsistencies across the 3D surface. In this paper,
we introduce SeqTex, a novel end-to-end framework that leverages the visual
knowledge encoded in pretrained video foundation models to directly generate
complete UV texture maps. Unlike previous methods that model the distribution
of UV textures in isolation, SeqTex reformulates the task as a sequence
generation problem, enabling the model to learn the joint distribution of
multi-view renderings and UV textures. This design effectively transfers the
consistent image-space priors from video foundation models into the UV domain.
To further enhance performance, we propose several architectural innovations: a
decoupled multi-view and UV branch design, geometry-informed attention to guide
cross-domain feature alignment, and adaptive token resolution to preserve fine
texture details while maintaining computational efficiency. Together, these
components allow SeqTex to fully utilize pretrained video priors and synthesize
high-fidelity UV texture maps without the need for post-processing. Extensive
experiments show that SeqTex achieves state-of-the-art performance on both
image-conditioned and text-conditioned 3D texture generation tasks, with
superior 3D consistency, texture-geometry alignment, and real-world
generalization.