ChatPaper.aiChatPaper

MONKEY: Adaptador de Ativação de Mascaramento em Chave-Valor para Personalização

MONKEY: Masking ON KEY-Value Activation Adapter for Personalization

October 9, 2025
Autores: James Baker
cs.AI

Resumo

A personalização de modelos de difusão permite que os usuários gerem novas imagens que incorporam um determinado assunto, oferecendo maior controle do que um prompt de texto. Esses modelos frequentemente apresentam dificuldades quando acabam apenas recriando a imagem do assunto e ignoram o prompt de texto. Observamos que um método popular de personalização, o IP-Adapter, gera automaticamente máscaras que segmentam definitivamente o assunto do fundo durante a inferência. Propomos usar essa máscara gerada automaticamente em uma segunda passagem para mascarar os tokens da imagem, restringindo-os ao assunto e não ao fundo, permitindo que o prompt de texto atue no restante da imagem. Para prompts de texto que descrevem locais e lugares, isso produz imagens que retratam com precisão o assunto enquanto correspondem definitivamente ao prompt. Comparamos nosso método com alguns outros métodos de personalização em tempo de teste e descobrimos que nosso método exibe um alto alinhamento com o prompt e a imagem de origem.
English
Personalizing diffusion models allows users to generate new images that incorporate a given subject, allowing more control than a text prompt. These models often suffer somewhat when they end up just recreating the subject image, and ignoring the text prompt. We observe that one popular method for personalization, the IP-Adapter automatically generates masks that we definitively segment the subject from the background during inference. We propose to use this automatically generated mask on a second pass to mask the image tokens, thus restricting them to the subject, not the background, allowing the text prompt to attend to the rest of the image. For text prompts describing locations and places, this produces images that accurately depict the subject while definitively matching the prompt. We compare our method to a few other test time personalization methods, and find our method displays high prompt and source image alignment.
PDF22February 7, 2026