単一画像に基づく反復的な被写体駆動型生成と編集
Single Image Iterative Subject-driven Generation and Editing
March 20, 2025
著者: Yair Shpitzer, Gal Chechik, Idan Schwartz
cs.AI
要旨
被写体の画像が少数、または単一の場合、画像生成と編集のパーソナライズは特に困難です。パーソナライズの一般的なアプローチとして、概念学習があります。これは被写体を既存のモデルに比較的迅速に統合できますが、被写体の画像数が少ない場合、生成される画像の品質が急速に低下する傾向があります。品質を向上させるためにエンコーダを事前学習することも可能ですが、学習は生成を学習分布に制限し、時間がかかります。学習なしで単一画像から画像生成と編集をパーソナライズすることは、依然として未解決の難しい課題です。ここでは、入力された被写体画像との類似度スコアを最適化する、新規の学習不要なアプローチであるSISOを提案します。具体的には、SISOは画像を反復的に生成し、与えられた被写体画像との類似度の損失に基づいてモデルを最適化し、満足のいく類似度が達成されるまで続けます。これにより、任意の画像生成器にプラグアンドプレイで最適化を適用できます。SISOを、画像編集と画像生成の2つのタスクで評価し、多様な個人被写体のデータセットを使用して、画像品質、被写体の忠実度、背景の保持において既存の手法を大幅に上回ることを実証しました。
English
Personalizing image generation and editing is particularly challenging when
we only have a few images of the subject, or even a single image. A common
approach to personalization is concept learning, which can integrate the
subject into existing models relatively quickly, but produces images whose
quality tends to deteriorate quickly when the number of subject images is
small. Quality can be improved by pre-training an encoder, but training
restricts generation to the training distribution, and is time consuming. It is
still an open hard challenge to personalize image generation and editing from a
single image without training. Here, we present SISO, a novel, training-free
approach based on optimizing a similarity score with an input subject image.
More specifically, SISO iteratively generates images and optimizes the model
based on loss of similarity with the given subject image until a satisfactory
level of similarity is achieved, allowing plug-and-play optimization to any
image generator. We evaluated SISO in two tasks, image editing and image
generation, using a diverse data set of personal subjects, and demonstrate
significant improvements over existing methods in image quality, subject
fidelity, and background preservation.Summary
AI-Generated Summary