Guía de Atención Relativa Grupal para la Edición de Imágenes

Resumen

Recientemente, la edición de imágenes basada en modelos de Difusión en Transformadores (DiT) ha experimentado un rápido desarrollo. Sin embargo, los métodos de edición existentes a menudo carecen de un control efectivo sobre el grado de edición, lo que limita su capacidad para lograr resultados más personalizados. Para abordar esta limitación, investigamos el mecanismo de Atención Multi-Modal (MM-Attention) dentro del modelo DiT y observamos que los tokens de Consulta (Query) y Clave (Key) comparten un vector de sesgo que depende únicamente de la capa. Interpretamos este sesgo como la representación del comportamiento de edición inherente del modelo, mientras que la diferencia (delta) entre cada token y su sesgo correspondiente codifica las señales de edición específicas del contenido. Basándonos en esta idea, proponemos la Guía de Atención Relativa Grupal (Group Relative Attention Guidance, GRAG), un método simple pero efectivo que repondera los valores delta de diferentes tokens para modular el enfoque del modelo en la imagen de entrada en relación con la instrucción de edición, permitiendo un control continuo y de grano fino sobre la intensidad de la edición sin necesidad de ajuste alguno. Experimentos exhaustivos realizados en frameworks de edición de imágenes existentes demuestran que GRAG puede integrarse con tan solo cuatro líneas de código, mejorando consistentemente la calidad de la edición. Además, en comparación con la Guía Libre de Clasificador (Classifier-Free Guidance) comúnmente utilizada, GRAG logra un control más suave y preciso sobre el grado de edición. Nuestro código será liberado en https://github.com/little-misfit/GRAG-Image-Editing.

English

Recently, image editing based on Diffusion-in-Transformer models has undergone rapid development. However, existing editing methods often lack effective control over the degree of editing, limiting their ability to achieve more customized results. To address this limitation, we investigate the MM-Attention mechanism within the DiT model and observe that the Query and Key tokens share a bias vector that is only layer-dependent. We interpret this bias as representing the model's inherent editing behavior, while the delta between each token and its corresponding bias encodes the content-specific editing signals. Based on this insight, we propose Group Relative Attention Guidance, a simple yet effective method that reweights the delta values of different tokens to modulate the focus of the model on the input image relative to the editing instruction, enabling continuous and fine-grained control over editing intensity without any tuning. Extensive experiments conducted on existing image editing frameworks demonstrate that GRAG can be integrated with as few as four lines of code, consistently enhancing editing quality. Moreover, compared to the commonly used Classifier-Free Guidance, GRAG achieves smoother and more precise control over the degree of editing. Our code will be released at https://github.com/little-misfit/GRAG-Image-Editing.

Guía de Atención Relativa Grupal para la Edición de Imágenes

Group Relative Attention Guidance for Image Editing

Resumen

Support