FlexPainter: Generación flexible y consistente de texturas en múltiples vistas
FlexPainter: Flexible and Multi-View Consistent Texture Generation
June 3, 2025
Autores: Dongyu Yan, Leyi Wu, Jiantao Lin, Luozhou Wang, Tianshuo Xu, Zhifei Chen, Zhen Yang, Lie Xu, Shunsi Zhang, Yingcong Chen
cs.AI
Resumen
La producción de mapas de texturas es una parte fundamental del modelado 3D y determina la calidad del renderizado. Recientemente, los métodos basados en difusión han abierto un nuevo camino para la generación de texturas. Sin embargo, la flexibilidad de control limitada y las modalidades de instrucción restringidas pueden impedir que los creadores obtengan los resultados deseados. Además, las inconsistencias entre las imágenes generadas desde múltiples vistas suelen dar lugar a una calidad deficiente en la generación de texturas. Para abordar estos problemas, presentamos FlexPainter, una novedosa pipeline de generación de texturas que permite una guía condicional multimodal flexible y logra una generación de texturas altamente consistente. Se construye un espacio de incrustación condicional compartido para realizar una agregación flexible entre diferentes modalidades de entrada. Utilizando este espacio de incrustación, presentamos un método de guía condicional basado en imágenes (CFG) para descomponer la información estructural y de estilo, logrando una estilización basada en imágenes de referencia. Aprovechando el conocimiento 3D dentro del prior de difusión de imágenes, primero generamos imágenes de múltiples vistas simultáneamente utilizando una representación en cuadrícula para mejorar la comprensión global. Al mismo tiempo, proponemos un módulo de sincronización de vistas y ponderación adaptativa durante el muestreo de difusión para garantizar aún más la consistencia local. Finalmente, se utiliza un modelo de completado de texturas 3D combinado con un modelo de mejora de texturas para generar mapas de texturas sin costuras y de alta resolución. Experimentos exhaustivos demuestran que nuestro marco supera significativamente a los métodos más avanzados tanto en flexibilidad como en calidad de generación.
English
Texture map production is an important part of 3D modeling and determines the
rendering quality. Recently, diffusion-based methods have opened a new way for
texture generation. However, restricted control flexibility and limited prompt
modalities may prevent creators from producing desired results. Furthermore,
inconsistencies between generated multi-view images often lead to poor texture
generation quality. To address these issues, we introduce FlexPainter,
a novel texture generation pipeline that enables flexible multi-modal
conditional guidance and achieves highly consistent texture generation. A
shared conditional embedding space is constructed to perform flexible
aggregation between different input modalities. Utilizing such embedding space,
we present an image-based CFG method to decompose structural and style
information, achieving reference image-based stylization. Leveraging the 3D
knowledge within the image diffusion prior, we first generate multi-view images
simultaneously using a grid representation to enhance global understanding.
Meanwhile, we propose a view synchronization and adaptive weighting module
during diffusion sampling to further ensure local consistency. Finally, a
3D-aware texture completion model combined with a texture enhancement model is
used to generate seamless, high-resolution texture maps. Comprehensive
experiments demonstrate that our framework significantly outperforms
state-of-the-art methods in both flexibility and generation quality.