ChatPaper.aiChatPaper

PhotoMaker: スタックID埋め込みによるリアルな人物写真のカスタマイズ

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

December 7, 2023
著者: Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan
cs.AI

要旨

テキストから画像を生成する技術は近年目覚ましい進歩を遂げ、与えられたテキストプロンプトに基づいて現実的な人物写真を合成することが可能になりました。しかし、既存のパーソナライズド生成手法は、高い効率性、優れたID忠実度、そして柔軟なテキスト制御性という要件を同時に満たすことができませんでした。本研究では、PhotoMakerという効率的なパーソナライズドテキスト画像生成手法を提案します。この手法は、主に任意の数の入力ID画像をスタックID埋め込みにエンコードし、ID情報を保持します。この埋め込みは、統一されたID表現として機能し、同じ入力IDの特性を包括的にカプセル化するだけでなく、異なるIDの特性も後続の統合に適応させることができます。これにより、より興味深く実用的なアプリケーションの道が開かれます。さらに、PhotoMakerのトレーニングを推進するために、ID指向のデータ構築パイプラインを提案し、トレーニングデータを組み立てます。提案されたパイプラインを通じて構築されたデータセットの下で、PhotoMakerは、テスト時のファインチューニングベースの手法よりも優れたID保持能力を示し、さらに大幅な速度向上、高品質な生成結果、強力な汎化能力、そして幅広いアプリケーションを提供します。プロジェクトページはhttps://photo-maker.github.io/で公開されています。
English
Recent advances in text-to-image generation have made remarkable progress in synthesizing realistic human photos conditioned on given text prompts. However, existing personalized generation methods cannot simultaneously satisfy the requirements of high efficiency, promising identity (ID) fidelity, and flexible text controllability. In this work, we introduce PhotoMaker, an efficient personalized text-to-image generation method, which mainly encodes an arbitrary number of input ID images into a stack ID embedding for preserving ID information. Such an embedding, serving as a unified ID representation, can not only encapsulate the characteristics of the same input ID comprehensively, but also accommodate the characteristics of different IDs for subsequent integration. This paves the way for more intriguing and practically valuable applications. Besides, to drive the training of our PhotoMaker, we propose an ID-oriented data construction pipeline to assemble the training data. Under the nourishment of the dataset constructed through the proposed pipeline, our PhotoMaker demonstrates better ID preservation ability than test-time fine-tuning based methods, yet provides significant speed improvements, high-quality generation results, strong generalization capabilities, and a wide range of applications. Our project page is available at https://photo-maker.github.io/
PDF6216December 15, 2024