ChatPaper.aiChatPaper

FlexPainter: Generazione flessibile e coerente di texture multi-vista

FlexPainter: Flexible and Multi-View Consistent Texture Generation

June 3, 2025
Autori: Dongyu Yan, Leyi Wu, Jiantao Lin, Luozhou Wang, Tianshuo Xu, Zhifei Chen, Zhen Yang, Lie Xu, Shunsi Zhang, Yingcong Chen
cs.AI

Abstract

La produzione di mappe di texture è una parte fondamentale della modellazione 3D e determina la qualità del rendering. Recentemente, i metodi basati sulla diffusione hanno aperto una nuova strada per la generazione di texture. Tuttavia, la flessibilità di controllo limitata e le modalità di prompt ridotte possono impedire ai creatori di ottenere i risultati desiderati. Inoltre, le incongruenze tra le immagini generate da più prospettive spesso portano a una qualità di generazione delle texture scadente. Per affrontare questi problemi, introduciamo FlexPainter, una nuova pipeline di generazione di texture che consente una guida condizionale multi-modale flessibile e raggiunge una generazione di texture altamente coerente. Uno spazio di embedding condizionale condiviso viene costruito per eseguire un'aggregazione flessibile tra diverse modalità di input. Utilizzando tale spazio di embedding, presentiamo un metodo CFG basato su immagini per scomporre le informazioni strutturali e stilistiche, ottenendo una stilizzazione basata su immagini di riferimento. Sfruttando la conoscenza 3D all'interno del prior di diffusione delle immagini, generiamo prima simultaneamente immagini da più prospettive utilizzando una rappresentazione a griglia per migliorare la comprensione globale. Nel frattempo, proponiamo un modulo di sincronizzazione delle viste e di ponderazione adattiva durante il campionamento della diffusione per garantire ulteriormente la coerenza locale. Infine, un modello di completamento delle texture consapevole del 3D combinato con un modello di miglioramento delle texture viene utilizzato per generare mappe di texture seamless e ad alta risoluzione. Esperimenti completi dimostrano che il nostro framework supera significativamente i metodi all'avanguardia sia in termini di flessibilità che di qualità di generazione.
English
Texture map production is an important part of 3D modeling and determines the rendering quality. Recently, diffusion-based methods have opened a new way for texture generation. However, restricted control flexibility and limited prompt modalities may prevent creators from producing desired results. Furthermore, inconsistencies between generated multi-view images often lead to poor texture generation quality. To address these issues, we introduce FlexPainter, a novel texture generation pipeline that enables flexible multi-modal conditional guidance and achieves highly consistent texture generation. A shared conditional embedding space is constructed to perform flexible aggregation between different input modalities. Utilizing such embedding space, we present an image-based CFG method to decompose structural and style information, achieving reference image-based stylization. Leveraging the 3D knowledge within the image diffusion prior, we first generate multi-view images simultaneously using a grid representation to enhance global understanding. Meanwhile, we propose a view synchronization and adaptive weighting module during diffusion sampling to further ensure local consistency. Finally, a 3D-aware texture completion model combined with a texture enhancement model is used to generate seamless, high-resolution texture maps. Comprehensive experiments demonstrate that our framework significantly outperforms state-of-the-art methods in both flexibility and generation quality.
PDF142June 6, 2025