FlexPainter: Гибкое и согласованное с несколькими видами генерация текстур
FlexPainter: Flexible and Multi-View Consistent Texture Generation
June 3, 2025
Авторы: Dongyu Yan, Leyi Wu, Jiantao Lin, Luozhou Wang, Tianshuo Xu, Zhifei Chen, Zhen Yang, Lie Xu, Shunsi Zhang, Yingcong Chen
cs.AI
Аннотация
Создание текстурных карт является важной частью 3D-моделирования и определяет качество рендеринга. В последнее время методы, основанные на диффузии, открыли новый путь для генерации текстур. Однако ограниченная гибкость управления и узкий набор модальностей подсказок могут препятствовать созданию желаемых результатов. Кроме того, несоответствия между сгенерированными изображениями с разных ракурсов часто приводят к низкому качеству генерации текстур. Для решения этих проблем мы представляем FlexPainter — новый конвейер генерации текстур, который обеспечивает гибкое многомодальное условное управление и достигает высокой согласованности в генерации текстур. Создается общее пространство условных вложений для гибкого объединения различных входных модальностей. Используя это пространство, мы предлагаем метод CFG на основе изображений для разделения структурной и стилевой информации, что позволяет достичь стилизации на основе эталонного изображения. Используя знания о 3D, заложенные в априорной диффузии изображений, мы сначала генерируем изображения с нескольких ракурсов одновременно, используя сеточное представление для улучшения глобального понимания. В то же время мы предлагаем модуль синхронизации ракурсов и адаптивного взвешивания в процессе выборки диффузии для дальнейшего обеспечения локальной согласованности. Наконец, модель завершения текстур с учетом 3D в сочетании с моделью улучшения текстур используется для создания бесшовных текстурных карт высокого разрешения. Комплексные эксперименты демонстрируют, что наш подход значительно превосходит современные методы как по гибкости, так и по качеству генерации.
English
Texture map production is an important part of 3D modeling and determines the
rendering quality. Recently, diffusion-based methods have opened a new way for
texture generation. However, restricted control flexibility and limited prompt
modalities may prevent creators from producing desired results. Furthermore,
inconsistencies between generated multi-view images often lead to poor texture
generation quality. To address these issues, we introduce FlexPainter,
a novel texture generation pipeline that enables flexible multi-modal
conditional guidance and achieves highly consistent texture generation. A
shared conditional embedding space is constructed to perform flexible
aggregation between different input modalities. Utilizing such embedding space,
we present an image-based CFG method to decompose structural and style
information, achieving reference image-based stylization. Leveraging the 3D
knowledge within the image diffusion prior, we first generate multi-view images
simultaneously using a grid representation to enhance global understanding.
Meanwhile, we propose a view synchronization and adaptive weighting module
during diffusion sampling to further ensure local consistency. Finally, a
3D-aware texture completion model combined with a texture enhancement model is
used to generate seamless, high-resolution texture maps. Comprehensive
experiments demonstrate that our framework significantly outperforms
state-of-the-art methods in both flexibility and generation quality.