FlexPainter : Génération de textures flexible et cohérente en multi-vues
FlexPainter: Flexible and Multi-View Consistent Texture Generation
June 3, 2025
Auteurs: Dongyu Yan, Leyi Wu, Jiantao Lin, Luozhou Wang, Tianshuo Xu, Zhifei Chen, Zhen Yang, Lie Xu, Shunsi Zhang, Yingcong Chen
cs.AI
Résumé
La production de cartes de textures est un aspect crucial de la modélisation 3D et détermine la qualité du rendu. Récemment, les méthodes basées sur la diffusion ont ouvert une nouvelle voie pour la génération de textures. Cependant, la flexibilité de contrôle limitée et les modalités d'invite restreintes peuvent empêcher les créateurs d'obtenir les résultats souhaités. De plus, les incohérences entre les images multi-vues générées conduisent souvent à une qualité médiocre de génération de textures. Pour résoudre ces problèmes, nous introduisons FlexPainter, un nouveau pipeline de génération de textures qui permet un guidage conditionnel multi-modal flexible et assure une génération de textures hautement cohérente. Un espace d'embedding conditionnel partagé est construit pour effectuer une agrégation flexible entre différentes modalités d'entrée. En utilisant cet espace d'embedding, nous présentons une méthode CFG basée sur l'image pour décomposer les informations structurelles et stylistiques, permettant ainsi une stylisation basée sur une image de référence. En exploitant la connaissance 3D intégrée dans le modèle de diffusion d'images, nous générons d'abord des images multi-vues simultanément en utilisant une représentation en grille pour améliorer la compréhension globale. Parallèlement, nous proposons un module de synchronisation des vues et de pondération adaptative lors de l'échantillonnage de la diffusion pour garantir davantage la cohérence locale. Enfin, un modèle de complétion de textures 3D combiné à un modèle d'amélioration de textures est utilisé pour générer des cartes de textures sans couture et en haute résolution. Des expériences approfondies démontrent que notre framework surpasse significativement les méthodes de pointe en termes de flexibilité et de qualité de génération.
English
Texture map production is an important part of 3D modeling and determines the
rendering quality. Recently, diffusion-based methods have opened a new way for
texture generation. However, restricted control flexibility and limited prompt
modalities may prevent creators from producing desired results. Furthermore,
inconsistencies between generated multi-view images often lead to poor texture
generation quality. To address these issues, we introduce FlexPainter,
a novel texture generation pipeline that enables flexible multi-modal
conditional guidance and achieves highly consistent texture generation. A
shared conditional embedding space is constructed to perform flexible
aggregation between different input modalities. Utilizing such embedding space,
we present an image-based CFG method to decompose structural and style
information, achieving reference image-based stylization. Leveraging the 3D
knowledge within the image diffusion prior, we first generate multi-view images
simultaneously using a grid representation to enhance global understanding.
Meanwhile, we propose a view synchronization and adaptive weighting module
during diffusion sampling to further ensure local consistency. Finally, a
3D-aware texture completion model combined with a texture enhancement model is
used to generate seamless, high-resolution texture maps. Comprehensive
experiments demonstrate that our framework significantly outperforms
state-of-the-art methods in both flexibility and generation quality.