SeqTex: Geração de Texturas de Malha em Sequências de Vídeo
SeqTex: Generate Mesh Textures in Video Sequence
July 6, 2025
Autores: Ze Yuan, Xin Yu, Yangtian Sun, Yuan-Chen Guo, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI
Resumo
O treinamento de modelos generativos nativos de texturas 3D continua sendo um problema fundamental, porém desafiador, principalmente devido à disponibilidade limitada de conjuntos de dados de texturas 3D em grande escala e de alta qualidade. Essa escassez dificulta a generalização para cenários do mundo real. Para lidar com isso, a maioria dos métodos existentes ajusta modelos generativos de imagens de base para explorar seus priors visuais aprendidos. No entanto, essas abordagens geralmente geram apenas imagens de múltiplas vistas e dependem de pós-processamento para produzir mapas de textura UV — uma representação essencial nos pipelines gráficos modernos. Esses pipelines de duas etapas frequentemente sofrem com acúmulo de erros e inconsistências espaciais na superfície 3D. Neste artigo, introduzimos o SeqTex, uma nova estrutura end-to-end que aproveita o conhecimento visual codificado em modelos de base de vídeo pré-treinados para gerar diretamente mapas de textura UV completos. Diferente de métodos anteriores que modelam a distribuição de texturas UV de forma isolada, o SeqTex reformula a tarefa como um problema de geração de sequência, permitindo que o modelo aprenda a distribuição conjunta de renderizações de múltiplas vistas e texturas UV. Esse design transfere efetivamente os priors consistentes do espaço de imagem dos modelos de base de vídeo para o domínio UV. Para melhorar ainda mais o desempenho, propomos várias inovações arquitetônicas: um design de ramificação desacoplada para múltiplas vistas e UV, atenção informada por geometria para guiar o alinhamento de características entre domínios, e resolução adaptativa de tokens para preservar detalhes finos de textura enquanto mantém a eficiência computacional. Juntos, esses componentes permitem que o SeqTex utilize totalmente os priors de vídeo pré-treinados e sintetize mapas de textura UV de alta fidelidade sem a necessidade de pós-processamento. Experimentos extensivos mostram que o SeqTex alcança desempenho state-of-the-art em tarefas de geração de texturas 3D condicionadas por imagem e por texto, com consistência 3D superior, alinhamento textura-geometria e generalização para o mundo real.
English
Training native 3D texture generative models remains a fundamental yet
challenging problem, largely due to the limited availability of large-scale,
high-quality 3D texture datasets. This scarcity hinders generalization to
real-world scenarios. To address this, most existing methods finetune
foundation image generative models to exploit their learned visual priors.
However, these approaches typically generate only multi-view images and rely on
post-processing to produce UV texture maps -- an essential representation in
modern graphics pipelines. Such two-stage pipelines often suffer from error
accumulation and spatial inconsistencies across the 3D surface. In this paper,
we introduce SeqTex, a novel end-to-end framework that leverages the visual
knowledge encoded in pretrained video foundation models to directly generate
complete UV texture maps. Unlike previous methods that model the distribution
of UV textures in isolation, SeqTex reformulates the task as a sequence
generation problem, enabling the model to learn the joint distribution of
multi-view renderings and UV textures. This design effectively transfers the
consistent image-space priors from video foundation models into the UV domain.
To further enhance performance, we propose several architectural innovations: a
decoupled multi-view and UV branch design, geometry-informed attention to guide
cross-domain feature alignment, and adaptive token resolution to preserve fine
texture details while maintaining computational efficiency. Together, these
components allow SeqTex to fully utilize pretrained video priors and synthesize
high-fidelity UV texture maps without the need for post-processing. Extensive
experiments show that SeqTex achieves state-of-the-art performance on both
image-conditioned and text-conditioned 3D texture generation tasks, with
superior 3D consistency, texture-geometry alignment, and real-world
generalization.