ChatPaper.aiChatPaper

FaceStudio: あなたの顔を瞬時にどこにでも配置

FaceStudio: Put Your Face Everywhere in Seconds

December 5, 2023
著者: Yuxuan Yan, Chi Zhang, Rui Wang, Pei Cheng, Gang Yu, Bin Fu
cs.AI

要旨

本研究は、被写体のアイデンティティを維持しつつ個性的なスタイルを加えるという、画像生成における興味深い課題であるアイデンティティ保存型画像合成を探求する。従来の手法であるTextual InversionやDreamBoothはカスタム画像作成において進展を遂げてきたが、微調整に多大なリソースと時間を要することや、複数の参照画像が必要であるといった重大な欠点を抱えている。これらの課題を克服するため、本研究では特に人物画像に焦点を当てた新しいアイデンティティ保存型合成手法を提案する。私たちのモデルは直接フィードフォワード機構を活用し、集中的な微調整を必要とせず、迅速かつ効率的な画像生成を可能にする。私たちの革新の核心は、スタイル化された画像、顔画像、テキストプロンプトを組み合わせたハイブリッドガイダンスフレームワークであり、これが画像生成プロセスを導く。この独自の組み合わせにより、私たちのモデルは芸術的なポートレートやアイデンティティを融合した画像など、多様なアプリケーションを生成することができる。定性的および定量的な評価を含む実験結果は、私たちの手法が既存のベースラインモデルや先行研究を凌駕し、特にその驚異的な効率性と被写体のアイデンティティを高忠実度で維持する能力において優れていることを示している。
English
This study investigates identity-preserving image synthesis, an intriguing task in image generation that seeks to maintain a subject's identity while adding a personalized, stylistic touch. Traditional methods, such as Textual Inversion and DreamBooth, have made strides in custom image creation, but they come with significant drawbacks. These include the need for extensive resources and time for fine-tuning, as well as the requirement for multiple reference images. To overcome these challenges, our research introduces a novel approach to identity-preserving synthesis, with a particular focus on human images. Our model leverages a direct feed-forward mechanism, circumventing the need for intensive fine-tuning, thereby facilitating quick and efficient image generation. Central to our innovation is a hybrid guidance framework, which combines stylized images, facial images, and textual prompts to guide the image generation process. This unique combination enables our model to produce a variety of applications, such as artistic portraits and identity-blended images. Our experimental results, including both qualitative and quantitative evaluations, demonstrate the superiority of our method over existing baseline models and previous works, particularly in its remarkable efficiency and ability to preserve the subject's identity with high fidelity.
PDF331December 15, 2024