FlexPainter: 柔軟かつ多視点整合的なテクスチャ生成
FlexPainter: Flexible and Multi-View Consistent Texture Generation
June 3, 2025
著者: Dongyu Yan, Leyi Wu, Jiantao Lin, Luozhou Wang, Tianshuo Xu, Zhifei Chen, Zhen Yang, Lie Xu, Shunsi Zhang, Yingcong Chen
cs.AI
要旨
テクスチャマップの生成は3Dモデリングにおいて重要な要素であり、レンダリング品質を決定します。近年、拡散モデルに基づく手法がテクスチャ生成の新たな道を開きました。しかし、制御の柔軟性の制約やプロンプトモダリティの限界により、クリエイターが望む結果を得ることが難しい場合があります。さらに、生成されたマルチビュー画像間の不整合が、テクスチャ生成品質の低下を招くことがあります。これらの課題を解決するため、我々はFlexPainterを提案します。これは、柔軟なマルチモーダル条件付けガイダンスを可能にし、高い一貫性を持つテクスチャ生成を実現する新しいテクスチャ生成パイプラインです。共有された条件付け埋め込み空間を構築し、異なる入力モダリティ間の柔軟な集約を実行します。この埋め込み空間を活用し、構造情報とスタイル情報を分解する画像ベースのCFG手法を提示し、参照画像に基づくスタイライゼーションを実現します。画像拡散事前分布に内在する3D知識を活用し、グリッド表現を用いてマルチビュー画像を同時生成することで、グローバルな理解を強化します。同時に、拡散サンプリング中にビュー同期と適応的重み付けモジュールを提案し、局所的な一貫性をさらに確保します。最後に、3Dを意識したテクスチャ補完モデルとテクスチャ強化モデルを組み合わせることで、シームレスで高解像度のテクスチャマップを生成します。包括的な実験により、我々のフレームワークが柔軟性と生成品質の両面において、最先端の手法を大幅に上回ることが実証されました。
English
Texture map production is an important part of 3D modeling and determines the
rendering quality. Recently, diffusion-based methods have opened a new way for
texture generation. However, restricted control flexibility and limited prompt
modalities may prevent creators from producing desired results. Furthermore,
inconsistencies between generated multi-view images often lead to poor texture
generation quality. To address these issues, we introduce FlexPainter,
a novel texture generation pipeline that enables flexible multi-modal
conditional guidance and achieves highly consistent texture generation. A
shared conditional embedding space is constructed to perform flexible
aggregation between different input modalities. Utilizing such embedding space,
we present an image-based CFG method to decompose structural and style
information, achieving reference image-based stylization. Leveraging the 3D
knowledge within the image diffusion prior, we first generate multi-view images
simultaneously using a grid representation to enhance global understanding.
Meanwhile, we propose a view synchronization and adaptive weighting module
during diffusion sampling to further ensure local consistency. Finally, a
3D-aware texture completion model combined with a texture enhancement model is
used to generate seamless, high-resolution texture maps. Comprehensive
experiments demonstrate that our framework significantly outperforms
state-of-the-art methods in both flexibility and generation quality.