Guidance par Attention Relative au Groupe pour l'Édition d'Image
Group Relative Attention Guidance for Image Editing
October 28, 2025
papers.authors: Xuanpu Zhang, Xuesong Niu, Ruidong Chen, Dan Song, Jianhao Zeng, Penghui Du, Haoxiang Cao, Kai Wu, An-an Liu
cs.AI
papers.abstract
Récemment, l'édition d'images basée sur les modèles Diffusion-in-Transformer a connu un développement rapide. Cependant, les méthodes d'édition existantes manquent souvent d'un contrôle efficace sur le degré de modification, limitant ainsi leur capacité à obtenir des résultats plus personnalisés. Pour remédier à cette limitation, nous étudions le mécanisme d'attention MM-Attention au sein du modèle DiT et observons que les tokens Query et Key partagent un vecteur de biais qui dépend uniquement de la couche. Nous interprétons ce biais comme représentant le comportement d'édition inhérent au modèle, tandis que la différence entre chaque token et son biais correspondant encode les signaux d'édition spécifiques au contenu. Sur la base de cette observation, nous proposons Group Relative Attention Guidance (GRAG), une méthode simple mais efficace qui repondère les valeurs différentielles des différents tokens pour moduler l'attention du modèle sur l'image d'entrée par rapport à l'instruction d'édition, permettant un contrôle continu et fin de l'intensité de l'édition sans aucun ajustement. Des expériences approfondies menées sur les frameworks d'édition d'images existants démontrent que GRAG peut être intégré avec seulement quatre lignes de code, améliorant constamment la qualité de l'édition. De plus, par rapport au Guidance Classifier-Free couramment utilisé, GRAG permet un contrôle plus fluide et plus précis du degré d'édition. Notre code sera publié à l'adresse https://github.com/little-misfit/GRAG-Image-Editing.
English
Recently, image editing based on Diffusion-in-Transformer models has
undergone rapid development. However, existing editing methods often lack
effective control over the degree of editing, limiting their ability to achieve
more customized results. To address this limitation, we investigate the
MM-Attention mechanism within the DiT model and observe that the Query and Key
tokens share a bias vector that is only layer-dependent. We interpret this bias
as representing the model's inherent editing behavior, while the delta between
each token and its corresponding bias encodes the content-specific editing
signals. Based on this insight, we propose Group Relative Attention Guidance, a
simple yet effective method that reweights the delta values of different tokens
to modulate the focus of the model on the input image relative to the editing
instruction, enabling continuous and fine-grained control over editing
intensity without any tuning. Extensive experiments conducted on existing image
editing frameworks demonstrate that GRAG can be integrated with as few as four
lines of code, consistently enhancing editing quality. Moreover, compared to
the commonly used Classifier-Free Guidance, GRAG achieves smoother and more
precise control over the degree of editing. Our code will be released at
https://github.com/little-misfit/GRAG-Image-Editing.