自分を想像してみてください:チューニング不要の個人用画像生成Imagine yourself: Tuning-Free Personalized Image Generation
拡散モデルは、さまざまな画像対画像のタスクで驚異的な効果を示しています。この研究では、個人向け画像生成のために設計された最先端のモデルであるImagine yourselfを紹介します。従来のチューニングベースの個人化技術とは異なり、Imagine yourselfはチューニングフリーモデルとして機能し、個別の調整なしで全ユーザーが共有フレームワークを活用できます。さらに、以前の研究では、アイデンティティの保存、複雑なプロンプトの追跡、および視覚的な品質の維持のバランスを取る課題に直面し、参照画像の強いコピーアンドペースト効果を持つモデルが生じました。したがって、重要な変更を必要とするプロンプトに従った画像を生成することが困難であり、生成される画像の多様性が低いといった問題がありました。これらの制限に対処するため、提案された手法では、1) 画像の多様性を促進するための新しい合成ペアデータ生成メカニズム、2) テキストの忠実性を向上させるための完全並列のアテンションアーキテクチャ(3つのテキストエンコーダと完全にトレーニング可能なビジョンエンコーダを備え)、および3) 視覚的品質の境界を徐々に押し広げる新しい段階的なファインチューニング方法論を導入しています。当研究は、Imagine yourselfが最先端の個人化モデルを凌駕し、アイデンティティの保存、視覚的品質、およびテキストの整合性において優れた能力を示すことを証明しています。このモデルは、さまざまな個人化アプリケーションのための堅固な基盤を確立しています。人間の評価結果は、前の個人化モデルと比較して、アイデンティティの保存、テキストの忠実性、視覚的魅力のすべての側面で、当該モデルのSOTA優位性を検証しています。