自分を想像してみてください:チューニング不要の個人用画像生成
Imagine yourself: Tuning-Free Personalized Image Generation
September 20, 2024
著者: Zecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, Li Chen, Ankit Jain, Ning Zhang, Peizhao Zhang, Roshan Sumbaly, Peter Vajda, Animesh Sinha
cs.AI
要旨
拡散モデルは、さまざまな画像対画像のタスクで驚異的な効果を示しています。この研究では、個人向け画像生成のために設計された最先端のモデルであるImagine yourselfを紹介します。従来のチューニングベースの個人化技術とは異なり、Imagine yourselfはチューニングフリーモデルとして機能し、個別の調整なしで全ユーザーが共有フレームワークを活用できます。さらに、以前の研究では、アイデンティティの保存、複雑なプロンプトの追跡、および視覚的な品質の維持のバランスを取る課題に直面し、参照画像の強いコピーアンドペースト効果を持つモデルが生じました。したがって、重要な変更を必要とするプロンプトに従った画像を生成することが困難であり、生成される画像の多様性が低いといった問題がありました。これらの制限に対処するため、提案された手法では、1) 画像の多様性を促進するための新しい合成ペアデータ生成メカニズム、2) テキストの忠実性を向上させるための完全並列のアテンションアーキテクチャ(3つのテキストエンコーダと完全にトレーニング可能なビジョンエンコーダを備え)、および3) 視覚的品質の境界を徐々に押し広げる新しい段階的なファインチューニング方法論を導入しています。当研究は、Imagine yourselfが最先端の個人化モデルを凌駕し、アイデンティティの保存、視覚的品質、およびテキストの整合性において優れた能力を示すことを証明しています。このモデルは、さまざまな個人化アプリケーションのための堅固な基盤を確立しています。人間の評価結果は、前の個人化モデルと比較して、アイデンティティの保存、テキストの忠実性、視覚的魅力のすべての側面で、当該モデルのSOTA優位性を検証しています。
English
Diffusion models have demonstrated remarkable efficacy across various
image-to-image tasks. In this research, we introduce Imagine yourself, a
state-of-the-art model designed for personalized image generation. Unlike
conventional tuning-based personalization techniques, Imagine yourself operates
as a tuning-free model, enabling all users to leverage a shared framework
without individualized adjustments. Moreover, previous work met challenges
balancing identity preservation, following complex prompts and preserving good
visual quality, resulting in models having strong copy-paste effect of the
reference images. Thus, they can hardly generate images following prompts that
require significant changes to the reference image, \eg, changing facial
expression, head and body poses, and the diversity of the generated images is
low. To address these limitations, our proposed method introduces 1) a new
synthetic paired data generation mechanism to encourage image diversity, 2) a
fully parallel attention architecture with three text encoders and a fully
trainable vision encoder to improve the text faithfulness, and 3) a novel
coarse-to-fine multi-stage finetuning methodology that gradually pushes the
boundary of visual quality. Our study demonstrates that Imagine yourself
surpasses the state-of-the-art personalization model, exhibiting superior
capabilities in identity preservation, visual quality, and text alignment. This
model establishes a robust foundation for various personalization applications.
Human evaluation results validate the model's SOTA superiority across all
aspects (identity preservation, text faithfulness, and visual appeal) compared
to the previous personalization models.Summary
AI-Generated Summary