FlexPainter: Flexibele en Multi-View Consistente Textuurgeneratie
FlexPainter: Flexible and Multi-View Consistent Texture Generation
June 3, 2025
Auteurs: Dongyu Yan, Leyi Wu, Jiantao Lin, Luozhou Wang, Tianshuo Xu, Zhifei Chen, Zhen Yang, Lie Xu, Shunsi Zhang, Yingcong Chen
cs.AI
Samenvatting
Texture map productie is een belangrijk onderdeel van 3D-modellering en bepaalt de renderkwaliteit. Recentelijk hebben op diffusie gebaseerde methoden een nieuwe weg geopend voor texturegeneratie. Beperkte controleflexibiliteit en beperkte promptmodaliteiten kunnen echter voorkomen dat makers de gewenste resultaten bereiken. Bovendien leiden inconsistenties tussen gegenereerde multi-view afbeeldingen vaak tot een slechte texturegeneratiekwaliteit. Om deze problemen aan te pakken, introduceren we FlexPainter, een innovatieve texturegeneratiepijplijn die flexibele multi-modale conditionele begeleiding mogelijk maakt en zeer consistente texturegeneratie bereikt. Een gedeelde conditionele inbeddingsruimte wordt geconstrueerd om flexibele aggregatie tussen verschillende invoermodaliteiten uit te voeren. Gebruikmakend van deze inbeddingsruimte, presenteren we een op afbeeldingen gebaseerde CFG-methode om structurele en stijlinformatie te decomponeren, waardoor op referentieafbeeldingen gebaseerde stilisering wordt bereikt. Door gebruik te maken van de 3D-kennis binnen de afbeeldingsdiffusieprior, genereren we eerst multi-view afbeeldingen gelijktijdig met behulp van een rasterrepresentatie om het globale begrip te verbeteren. Tegelijkertijd stellen we een viewsynchronisatie- en adaptief gewichtingsmodule voor tijdens diffusiebemonstering om de lokale consistentie verder te waarborgen. Ten slotte wordt een 3D-bewust texturecompleteringsmodel gecombineerd met een textureverbeteringsmodel gebruikt om naadloze, hoogwaardige texture maps te genereren. Uitgebreide experimenten tonen aan dat ons framework zowel in flexibiliteit als in generatiekwaliteit aanzienlijk beter presteert dan state-of-the-art methoden.
English
Texture map production is an important part of 3D modeling and determines the
rendering quality. Recently, diffusion-based methods have opened a new way for
texture generation. However, restricted control flexibility and limited prompt
modalities may prevent creators from producing desired results. Furthermore,
inconsistencies between generated multi-view images often lead to poor texture
generation quality. To address these issues, we introduce FlexPainter,
a novel texture generation pipeline that enables flexible multi-modal
conditional guidance and achieves highly consistent texture generation. A
shared conditional embedding space is constructed to perform flexible
aggregation between different input modalities. Utilizing such embedding space,
we present an image-based CFG method to decompose structural and style
information, achieving reference image-based stylization. Leveraging the 3D
knowledge within the image diffusion prior, we first generate multi-view images
simultaneously using a grid representation to enhance global understanding.
Meanwhile, we propose a view synchronization and adaptive weighting module
during diffusion sampling to further ensure local consistency. Finally, a
3D-aware texture completion model combined with a texture enhancement model is
used to generate seamless, high-resolution texture maps. Comprehensive
experiments demonstrate that our framework significantly outperforms
state-of-the-art methods in both flexibility and generation quality.