FlexPainter: Geração de Texturas Flexível e Consistente em Múltiplas Visualizações
FlexPainter: Flexible and Multi-View Consistent Texture Generation
June 3, 2025
Autores: Dongyu Yan, Leyi Wu, Jiantao Lin, Luozhou Wang, Tianshuo Xu, Zhifei Chen, Zhen Yang, Lie Xu, Shunsi Zhang, Yingcong Chen
cs.AI
Resumo
A produção de mapas de textura é uma parte importante da modelagem 3D e determina a qualidade da renderização. Recentemente, métodos baseados em difusão abriram um novo caminho para a geração de texturas. No entanto, a flexibilidade de controle restrita e as modalidades de prompt limitadas podem impedir que os criadores produzam os resultados desejados. Além disso, inconsistências entre imagens geradas em múltiplas visões frequentemente levam a uma baixa qualidade na geração de texturas. Para resolver esses problemas, apresentamos o FlexPainter, um novo pipeline de geração de texturas que permite orientação condicional flexível e multimodal e alcança uma geração de texturas altamente consistente. Um espaço de incorporação condicional compartilhado é construído para realizar agregação flexível entre diferentes modalidades de entrada. Utilizando esse espaço de incorporação, apresentamos um método CFG baseado em imagem para decompor informações estruturais e de estilo, alcançando estilização baseada em imagem de referência. Aproveitando o conhecimento 3D presente no prior de difusão de imagem, primeiro geramos imagens de múltiplas visões simultaneamente usando uma representação em grade para melhorar a compreensão global. Enquanto isso, propomos um módulo de sincronização de visão e ponderação adaptativa durante a amostragem de difusão para garantir ainda mais a consistência local. Por fim, um modelo de conclusão de textura 3D combinado com um modelo de aprimoramento de textura é usado para gerar mapas de textura sem costuras e de alta resolução. Experimentos abrangentes demonstram que nosso framework supera significativamente os métodos state-of-the-art tanto em flexibilidade quanto em qualidade de geração.
English
Texture map production is an important part of 3D modeling and determines the
rendering quality. Recently, diffusion-based methods have opened a new way for
texture generation. However, restricted control flexibility and limited prompt
modalities may prevent creators from producing desired results. Furthermore,
inconsistencies between generated multi-view images often lead to poor texture
generation quality. To address these issues, we introduce FlexPainter,
a novel texture generation pipeline that enables flexible multi-modal
conditional guidance and achieves highly consistent texture generation. A
shared conditional embedding space is constructed to perform flexible
aggregation between different input modalities. Utilizing such embedding space,
we present an image-based CFG method to decompose structural and style
information, achieving reference image-based stylization. Leveraging the 3D
knowledge within the image diffusion prior, we first generate multi-view images
simultaneously using a grid representation to enhance global understanding.
Meanwhile, we propose a view synchronization and adaptive weighting module
during diffusion sampling to further ensure local consistency. Finally, a
3D-aware texture completion model combined with a texture enhancement model is
used to generate seamless, high-resolution texture maps. Comprehensive
experiments demonstrate that our framework significantly outperforms
state-of-the-art methods in both flexibility and generation quality.