ChatPaper.aiChatPaper

MONKEY: Masking ON KEY-Waarde Activatie Adapter voor Personalisatie

MONKEY: Masking ON KEY-Value Activation Adapter for Personalization

October 9, 2025
Auteurs: James Baker
cs.AI

Samenvatting

Het personaliseren van diffusiemodellen stelt gebruikers in staat nieuwe afbeeldingen te genereren die een bepaald onderwerp incorporeren, wat meer controle biedt dan een tekstprompt. Deze modellen presteren vaak minder goed wanneer ze simpelweg het onderwerp opnieuw creëren en de tekstprompt negeren. We observeren dat een populaire methode voor personalisatie, de IP-Adapter, automatisch maskers genereert waarmee we het onderwerp tijdens de inferentie duidelijk van de achtergrond kunnen segmenteren. Wij stellen voor om dit automatisch gegenereerde masker in een tweede ronde te gebruiken om de beeldtokens te maskeren, waardoor deze beperkt blijven tot het onderwerp en niet de achtergrond, zodat de tekstprompt zich kan richten op de rest van de afbeelding. Voor tekstprompts die locaties en plaatsen beschrijven, resulteert dit in afbeeldingen die het onderwerp nauwkeurig weergeven en tegelijkertijd exact overeenkomen met de prompt. We vergelijken onze methode met enkele andere personalisatiemethoden tijdens de testfase en constateren dat onze methode een hoge afstemming tussen de prompt en de bronafbeelding vertoont.
English
Personalizing diffusion models allows users to generate new images that incorporate a given subject, allowing more control than a text prompt. These models often suffer somewhat when they end up just recreating the subject image, and ignoring the text prompt. We observe that one popular method for personalization, the IP-Adapter automatically generates masks that we definitively segment the subject from the background during inference. We propose to use this automatically generated mask on a second pass to mask the image tokens, thus restricting them to the subject, not the background, allowing the text prompt to attend to the rest of the image. For text prompts describing locations and places, this produces images that accurately depict the subject while definitively matching the prompt. We compare our method to a few other test time personalization methods, and find our method displays high prompt and source image alignment.
PDF12October 13, 2025