FlashFace:高忠実度なアイデンティティ保持を実現する人物画像のパーソナライゼーション
FlashFace: Human Image Personalization with High-fidelity Identity Preservation
March 25, 2024
著者: Shilong Zhang, Lianghua Huang, Xi Chen, Yifei Zhang, Zhi-Fan Wu, Yutong Feng, Wei Wang, Yujun Shen, Yu Liu, Ping Luo
cs.AI
要旨
本研究は、ユーザーが1つまたは少数の参照顔画像とテキストプロンプトを提供することで、簡単に自分の写真をその場でパーソナライズできる実用的なツール「FlashFace」を紹介します。我々のアプローチは、既存の人物写真カスタマイズ手法と比較して、より高精度なアイデンティティ保存と優れた指示追従を特徴としており、2つの巧妙な設計に支えられています。第一に、顔のアイデンティティを従来の手法のように単一の画像トークンではなく、一連の特徴マップとしてエンコードすることで、モデルが参照顔の詳細(傷跡、タトゥー、顔の形状など)をより多く保持できるようにしています。第二に、テキストと画像のガイダンスをバランスよく統合するための分離統合戦略を導入し、参照顔とテキストプロンプトの間の矛盾(例えば、大人を「子供」や「老人」にパーソナライズする場合)を軽減しています。広範な実験結果により、人物画像のパーソナライゼーション、言語プロンプト下での顔交換、仮想キャラクターを実在の人物にするなど、様々なアプリケーションにおける本手法の有効性が実証されています。プロジェクトページ: https://jshilong.github.io/flashface-page
English
This work presents FlashFace, a practical tool with which users can easily
personalize their own photos on the fly by providing one or a few reference
face images and a text prompt. Our approach is distinguishable from existing
human photo customization methods by higher-fidelity identity preservation and
better instruction following, benefiting from two subtle designs. First, we
encode the face identity into a series of feature maps instead of one image
token as in prior arts, allowing the model to retain more details of the
reference faces (e.g., scars, tattoos, and face shape ). Second, we introduce a
disentangled integration strategy to balance the text and image guidance during
the text-to-image generation process, alleviating the conflict between the
reference faces and the text prompts (e.g., personalizing an adult into a
"child" or an "elder"). Extensive experimental results demonstrate the
effectiveness of our method on various applications, including human image
personalization, face swapping under language prompts, making virtual
characters into real people, etc. Project Page:
https://jshilong.github.io/flashface-page.Summary
AI-Generated Summary