FlexPainter: Flexible und multi-view-konsistente Texturgenerierung
FlexPainter: Flexible and Multi-View Consistent Texture Generation
June 3, 2025
Autoren: Dongyu Yan, Leyi Wu, Jiantao Lin, Luozhou Wang, Tianshuo Xu, Zhifei Chen, Zhen Yang, Lie Xu, Shunsi Zhang, Yingcong Chen
cs.AI
Zusammenfassung
Die Erstellung von Texturkarten ist ein wesentlicher Bestandteil des 3D-Modellierens und bestimmt die Renderqualität. Kürzlich haben diffusionsbasierte Methoden neue Wege für die Texturgenerierung eröffnet. Allerdings können eingeschränkte Kontrollflexibilität und begrenzte Prompt-Modalitäten die Erstellung gewünschter Ergebnisse behindern. Darüber hinaus führen Inkonsistenzen zwischen generierten Multi-View-Bildern oft zu einer schlechten Texturgenerierungsqualität. Um diese Probleme zu lösen, stellen wir FlexPainter vor, eine neuartige Pipeline zur Texturgenerierung, die flexible multi-modale Bedingungsführung ermöglicht und eine hochkonsistente Texturgenerierung erreicht. Ein gemeinsamer bedingter Einbettungsraum wird konstruiert, um eine flexible Aggregation zwischen verschiedenen Eingabemodalitäten durchzuführen. Unter Nutzung dieses Einbettungsraums präsentieren wir eine bildbasierte CFG-Methode, um Struktur- und Stilinformationen zu zerlegen und eine referenzbildbasierte Stilisierung zu erreichen. Durch die Nutzung des 3D-Wissens innerhalb des Bilddiffusionspriors generieren wir zunächst Multi-View-Bilder gleichzeitig unter Verwendung einer Gitterdarstellung, um das globale Verständnis zu verbessern. Gleichzeitig schlagen wir ein View-Synchronisations- und adaptives Gewichtungsmodul während des Diffusionssamplings vor, um die lokale Konsistenz weiter zu gewährleisten. Schließlich wird ein 3D-bewusstes Texturvervollständigungsmodell in Kombination mit einem Texturverbesserungsmodell verwendet, um nahtlose, hochauflösende Texturkarten zu generieren. Umfassende Experimente zeigen, dass unser Framework sowohl in Bezug auf Flexibilität als auch auf Generierungsqualität deutlich besser abschneidet als state-of-the-art Methoden.
English
Texture map production is an important part of 3D modeling and determines the
rendering quality. Recently, diffusion-based methods have opened a new way for
texture generation. However, restricted control flexibility and limited prompt
modalities may prevent creators from producing desired results. Furthermore,
inconsistencies between generated multi-view images often lead to poor texture
generation quality. To address these issues, we introduce FlexPainter,
a novel texture generation pipeline that enables flexible multi-modal
conditional guidance and achieves highly consistent texture generation. A
shared conditional embedding space is constructed to perform flexible
aggregation between different input modalities. Utilizing such embedding space,
we present an image-based CFG method to decompose structural and style
information, achieving reference image-based stylization. Leveraging the 3D
knowledge within the image diffusion prior, we first generate multi-view images
simultaneously using a grid representation to enhance global understanding.
Meanwhile, we propose a view synchronization and adaptive weighting module
during diffusion sampling to further ensure local consistency. Finally, a
3D-aware texture completion model combined with a texture enhancement model is
used to generate seamless, high-resolution texture maps. Comprehensive
experiments demonstrate that our framework significantly outperforms
state-of-the-art methods in both flexibility and generation quality.