MONKEY: Adaptador de Activación de MÁSCARA en CLAVE-Valor para Personalización
MONKEY: Masking ON KEY-Value Activation Adapter for Personalization
October 9, 2025
Autores: James Baker
cs.AI
Resumen
La personalización de modelos de difusión permite a los usuarios generar nuevas imágenes que incorporan un sujeto dado, ofreciendo un mayor control que un simple texto descriptivo. Estos modelos suelen presentar dificultades cuando terminan recreando únicamente la imagen del sujeto, ignorando el texto descriptivo. Observamos que un método popular de personalización, el IP-Adapter, genera automáticamente máscaras que segmentan de manera definitiva el sujeto del fondo durante la inferencia. Proponemos utilizar esta máscara generada automáticamente en una segunda pasada para enmascarar los tokens de la imagen, restringiéndolos al sujeto y no al fondo, lo que permite que el texto descriptivo atienda al resto de la imagen. Para textos descriptivos que mencionan ubicaciones y lugares, esto produce imágenes que representan con precisión el sujeto mientras coinciden definitivamente con el texto. Comparamos nuestro método con otros métodos de personalización en tiempo de prueba y encontramos que nuestro método muestra una alta alineación tanto con el texto descriptivo como con la imagen de origen.
English
Personalizing diffusion models allows users to generate new images that
incorporate a given subject, allowing more control than a text prompt. These
models often suffer somewhat when they end up just recreating the subject
image, and ignoring the text prompt. We observe that one popular method for
personalization, the IP-Adapter automatically generates masks that we
definitively segment the subject from the background during inference. We
propose to use this automatically generated mask on a second pass to mask the
image tokens, thus restricting them to the subject, not the background,
allowing the text prompt to attend to the rest of the image. For text prompts
describing locations and places, this produces images that accurately depict
the subject while definitively matching the prompt. We compare our method to a
few other test time personalization methods, and find our method displays high
prompt and source image alignment.