ChatPaper.aiChatPaper

MONKEY: Adaptador de Activación de MÁSCARA en CLAVE-Valor para Personalización

MONKEY: Masking ON KEY-Value Activation Adapter for Personalization

October 9, 2025
Autores: James Baker
cs.AI

Resumen

La personalización de modelos de difusión permite a los usuarios generar nuevas imágenes que incorporan un sujeto dado, ofreciendo un mayor control que un simple texto descriptivo. Estos modelos suelen presentar dificultades cuando terminan recreando únicamente la imagen del sujeto, ignorando el texto descriptivo. Observamos que un método popular de personalización, el IP-Adapter, genera automáticamente máscaras que segmentan de manera definitiva el sujeto del fondo durante la inferencia. Proponemos utilizar esta máscara generada automáticamente en una segunda pasada para enmascarar los tokens de la imagen, restringiéndolos al sujeto y no al fondo, lo que permite que el texto descriptivo atienda al resto de la imagen. Para textos descriptivos que mencionan ubicaciones y lugares, esto produce imágenes que representan con precisión el sujeto mientras coinciden definitivamente con el texto. Comparamos nuestro método con otros métodos de personalización en tiempo de prueba y encontramos que nuestro método muestra una alta alineación tanto con el texto descriptivo como con la imagen de origen.
English
Personalizing diffusion models allows users to generate new images that incorporate a given subject, allowing more control than a text prompt. These models often suffer somewhat when they end up just recreating the subject image, and ignoring the text prompt. We observe that one popular method for personalization, the IP-Adapter automatically generates masks that we definitively segment the subject from the background during inference. We propose to use this automatically generated mask on a second pass to mask the image tokens, thus restricting them to the subject, not the background, allowing the text prompt to attend to the rest of the image. For text prompts describing locations and places, this produces images that accurately depict the subject while definitively matching the prompt. We compare our method to a few other test time personalization methods, and find our method displays high prompt and source image alignment.
PDF12October 13, 2025