ChatPaper.aiChatPaper

MONKEY: 개인화를 위한 키-값 활성화 어댑터 마스킹

MONKEY: Masking ON KEY-Value Activation Adapter for Personalization

October 9, 2025
저자: James Baker
cs.AI

초록

개인화된 확산 모델을 사용하면 사용자가 주어진 주제를 포함한 새로운 이미지를 생성할 수 있어, 텍스트 프롬프트보다 더 많은 제어가 가능합니다. 이러한 모델들은 종종 주제 이미지를 단순히 재현하고 텍스트 프롬프트를 무시하는 경우 성능이 저하되는 문제가 있습니다. 우리는 개인화를 위한 인기 있는 방법 중 하나인 IP-Adapter가 추론 과정에서 주제를 배경과 명확히 분리하는 마스크를 자동으로 생성한다는 점을 관찰했습니다. 우리는 이 자동 생성된 마스크를 두 번째 패스에서 이미지 토큰에 적용하여 배경이 아닌 주제에만 제한함으로써, 텍스트 프롬프트가 이미지의 나머지 부분에 주목할 수 있도록 제안합니다. 장소와 위치를 설명하는 텍스트 프롬프트의 경우, 이 방법은 주제를 정확히 묘사하면서도 프롬프트와 완벽히 일치하는 이미지를 생성합니다. 우리는 이 방법을 다른 몇 가지 테스트 시점 개인화 방법과 비교했을 때, 높은 프롬프트 및 소스 이미지 정렬을 보이는 것을 확인했습니다.
English
Personalizing diffusion models allows users to generate new images that incorporate a given subject, allowing more control than a text prompt. These models often suffer somewhat when they end up just recreating the subject image, and ignoring the text prompt. We observe that one popular method for personalization, the IP-Adapter automatically generates masks that we definitively segment the subject from the background during inference. We propose to use this automatically generated mask on a second pass to mask the image tokens, thus restricting them to the subject, not the background, allowing the text prompt to attend to the rest of the image. For text prompts describing locations and places, this produces images that accurately depict the subject while definitively matching the prompt. We compare our method to a few other test time personalization methods, and find our method displays high prompt and source image alignment.
PDF12October 13, 2025