ChatPaper.aiChatPaper

ViPer: 個人の嗜好学習による生成モデルの視覚的パーソナライゼーション

ViPer: Visual Personalization of Generative Models via Individual Preference Learning

July 24, 2024
著者: Sogand Salehi, Mahdi Shafiei, Teresa Yeo, Roman Bachmann, Amir Zamir
cs.AI

要旨

同じプロンプトに対して生成された画像でも、異なるユーザーが異なる画像を好む。これにより、個人の視覚的嗜好に沿った画像を生成するパーソナライズド画像生成が求められるようになった。しかし、現在の生成モデルは広範なユーザー層にアピールするように調整されているため、パーソナライズされていない。これらのモデルを使用して個々のユーザーの嗜好に沿った画像を生成するには、ユーザーによる反復的な手動プロンプトエンジニアリングが必要であり、非効率的で望ましくない。我々は、画像生成プロセスをパーソナライズするために、まずユーザーに少数の画像に対してコメントを付けてもらい、それぞれの画像を好きまたは嫌いな理由を説明してもらうことで、一度限りのプロセスでユーザーの一般的な嗜好を捕捉することを提案する。これらのコメントに基づいて、大規模言語モデルを使用してユーザーの構造化された好みと嫌いの視覚的属性、すなわち視覚的嗜好を推論する。これらの属性を使用して、テキストから画像へのモデルを導き、個々のユーザーの視覚的嗜好に合わせた画像を生成する。一連のユーザー調査と大規模言語モデルによる評価を通じて、提案手法が個々のユーザーの視覚的嗜好に良く合致した生成結果をもたらすことを実証する。
English
Different users find different images generated for the same prompt desirable. This gives rise to personalized image generation which involves creating images aligned with an individual's visual preference. Current generative models are, however, unpersonalized, as they are tuned to produce outputs that appeal to a broad audience. Using them to generate images aligned with individual users relies on iterative manual prompt engineering by the user which is inefficient and undesirable. We propose to personalize the image generation process by first capturing the generic preferences of the user in a one-time process by inviting them to comment on a small selection of images, explaining why they like or dislike each. Based on these comments, we infer a user's structured liked and disliked visual attributes, i.e., their visual preference, using a large language model. These attributes are used to guide a text-to-image model toward producing images that are tuned towards the individual user's visual preference. Through a series of user studies and large language model guided evaluations, we demonstrate that the proposed method results in generations that are well aligned with individual users' visual preferences.

Summary

AI-Generated Summary

PDF132November 28, 2024