ChatPaper.aiChatPaper

GuideFlow3D: 外観転送のための最適化ガイド付き修正フロー

GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer

October 17, 2025
著者: Sayan Deb Sarkar, Sinisa Stekovic, Vincent Lepetit, Iro Armeni
cs.AI

要旨

外観を3Dアセットに転送する際に、画像やテキストなどの異なる表現形式を用いる手法は、ゲーム、拡張現実、デジタルコンテンツ作成などの産業における幅広い応用可能性から注目を集めている。しかし、最新の手法でも、入力と外観オブジェクト間の幾何学的構造が大きく異なる場合には失敗することが多い。直接3D生成モデルを適用する単純なアプローチでは、魅力的な結果が得られないことを示す。代わりに、普遍的なガイダンスに着想を得た原理に基づくアプローチを提案する。画像やテキストを条件とした事前学習済みの整流フローモデルを基に、サンプリングプロセスに対して定期的にガイダンスを追加するトレーニング不要の手法を採用する。このガイダンスは微分可能な損失関数としてモデル化でき、外観に対する部分認識損失や自己類似性を含む2種類のガイダンスを実験的に検証する。実験結果から、提案手法がテクスチャや幾何学的詳細を入力3Dアセットに成功裏に転送し、定性的および定量的にベースラインを上回ることが示された。また、従来の評価指標は、局所的な詳細に焦点を当てたり、グラウンドトゥルースデータがない状況で異なる入力を比較したりする能力に欠けるため、このタスクの評価には不適切であることを示す。そこで、GPTベースのシステムを用いて外観転送の品質を客観的にランク付けし、堅牢で人間らしい評価を確保する。ユーザスタディによってもこの評価が裏付けられる。提示されたシナリオを超えて、提案手法は一般的であり、異なるタイプの拡散モデルやガイダンス関数に拡張可能である。
English
Transferring appearance to 3D assets using different representations of the appearance object - such as images or text - has garnered interest due to its wide range of applications in industries like gaming, augmented reality, and digital content creation. However, state-of-the-art methods still fail when the geometry between the input and appearance objects is significantly different. A straightforward approach is to directly apply a 3D generative model, but we show that this ultimately fails to produce appealing results. Instead, we propose a principled approach inspired by universal guidance. Given a pretrained rectified flow model conditioned on image or text, our training-free method interacts with the sampling process by periodically adding guidance. This guidance can be modeled as a differentiable loss function, and we experiment with two different types of guidance including part-aware losses for appearance and self-similarity. Our experiments show that our approach successfully transfers texture and geometric details to the input 3D asset, outperforming baselines both qualitatively and quantitatively. We also show that traditional metrics are not suitable for evaluating the task due to their inability of focusing on local details and comparing dissimilar inputs, in absence of ground truth data. We thus evaluate appearance transfer quality with a GPT-based system objectively ranking outputs, ensuring robust and human-like assessment, as further confirmed by our user study. Beyond showcased scenarios, our method is general and could be extended to different types of diffusion models and guidance functions.
PDF12October 21, 2025