FlexPainter: 유연하고 다중 뷰 일관성을 갖춘 텍스처 생성
FlexPainter: Flexible and Multi-View Consistent Texture Generation
June 3, 2025
저자: Dongyu Yan, Leyi Wu, Jiantao Lin, Luozhou Wang, Tianshuo Xu, Zhifei Chen, Zhen Yang, Lie Xu, Shunsi Zhang, Yingcong Chen
cs.AI
초록
텍스처 맵 생성은 3D 모델링의 중요한 부분이며 렌더링 품질을 결정짓습니다. 최근, 확산 기반 방법들이 텍스처 생성에 새로운 길을 열었습니다. 그러나 제한된 제어 유연성과 프롬프트 방식의 한계로 인해 창작자들이 원하는 결과를 얻는 데 어려움을 겪을 수 있습니다. 더욱이, 생성된 다중 뷰 이미지 간의 불일치로 인해 텍스처 생성 품질이 저하되는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 유연한 다중 모달 조건부 안내를 가능하게 하고 높은 일관성을 가진 텍스처 생성을 달성하는 새로운 텍스처 생성 파이프라인인 FlexPainter를 소개합니다. 공유 조건부 임베딩 공간을 구축하여 다양한 입력 모달리티 간의 유연한 집계를 수행합니다. 이러한 임베딩 공간을 활용하여, 우리는 구조적 정보와 스타일 정보를 분해하는 이미지 기반 CFG 방법을 제시하여 참조 이미지 기반 스타일화를 달성합니다. 이미지 확산 사전에 내재된 3D 지식을 활용하여, 우리는 먼저 그리드 표현을 사용하여 다중 뷰 이미지를 동시에 생성하여 전역적 이해를 강화합니다. 동시에, 확산 샘플링 과정에서 뷰 동기화 및 적응형 가중치 모듈을 제안하여 지역적 일관성을 더욱 보장합니다. 마지막으로, 3D 인식 텍스처 완성 모델과 텍스처 향상 모델을 결합하여 매끄럽고 고해상도의 텍스처 맵을 생성합니다. 포괄적인 실험을 통해 우리의 프레임워크가 유연성과 생성 품질 모두에서 최신 방법들을 크게 능가함을 입증합니다.
English
Texture map production is an important part of 3D modeling and determines the
rendering quality. Recently, diffusion-based methods have opened a new way for
texture generation. However, restricted control flexibility and limited prompt
modalities may prevent creators from producing desired results. Furthermore,
inconsistencies between generated multi-view images often lead to poor texture
generation quality. To address these issues, we introduce FlexPainter,
a novel texture generation pipeline that enables flexible multi-modal
conditional guidance and achieves highly consistent texture generation. A
shared conditional embedding space is constructed to perform flexible
aggregation between different input modalities. Utilizing such embedding space,
we present an image-based CFG method to decompose structural and style
information, achieving reference image-based stylization. Leveraging the 3D
knowledge within the image diffusion prior, we first generate multi-view images
simultaneously using a grid representation to enhance global understanding.
Meanwhile, we propose a view synchronization and adaptive weighting module
during diffusion sampling to further ensure local consistency. Finally, a
3D-aware texture completion model combined with a texture enhancement model is
used to generate seamless, high-resolution texture maps. Comprehensive
experiments demonstrate that our framework significantly outperforms
state-of-the-art methods in both flexibility and generation quality.