Groepsrelatieve Aandachtsturing voor Beeldbewerking
Group Relative Attention Guidance for Image Editing
October 28, 2025
Auteurs: Xuanpu Zhang, Xuesong Niu, Ruidong Chen, Dan Song, Jianhao Zeng, Penghui Du, Haoxiang Cao, Kai Wu, An-an Liu
cs.AI
Samenvatting
Onlangs heeft beeldbewerking op basis van Diffusion-in-Transformer-modellen een snelle ontwikkeling doorgemaakt. Bestaande bewerkingsmethoden ontberen echter vaak een effectieve controle over de bewerkingsgraad, wat hun vermogen beperkt om meer gepersonaliseerde resultaten te bereiken. Om deze beperking aan te pakken, onderzoeken we het MM-Attention-mechanisme binnen het DiT-model en observeren we dat de Query- en Key-tokens een biasvector delen die alleen van de laag afhankelijk is. Wij interpreteren deze bias als een representatie van het inherente bewerkingsgedrag van het model, terwijl de delta tussen elke token en de bijbehorende bias de inhoudsspecifieke bewerkingssignalen codeert. Gebaseerd op dit inzicht stellen we Group Relative Attention Guidance voor, een eenvoudige maar effectieve methode die de deltawaarden van verschillende tokens herweegt om de focus van het model op de invoerafbeelding ten opzichte van de bewerkingsinstructie te moduleren. Dit maakt continue en fijnmazige controle over de bewerkingsintensiteit mogelijk zonder enige afstemming. Uitgebreide experimenten uitgevoerd met bestaande beeldbewerkingsframeworks tonen aan dat GRAG kan worden geïntegreerd met slechts vier regels code, waarbij consistent de bewerkingskwaliteit wordt verbeterd. Vergeleken met de veelgebruikte Classifier-Free Guidance bereikt GRAG bovendien een soepelere en preciezere controle over de bewerkingsgraad. Onze code wordt vrijgegeven op https://github.com/little-misfit/GRAG-Image-Editing.
English
Recently, image editing based on Diffusion-in-Transformer models has
undergone rapid development. However, existing editing methods often lack
effective control over the degree of editing, limiting their ability to achieve
more customized results. To address this limitation, we investigate the
MM-Attention mechanism within the DiT model and observe that the Query and Key
tokens share a bias vector that is only layer-dependent. We interpret this bias
as representing the model's inherent editing behavior, while the delta between
each token and its corresponding bias encodes the content-specific editing
signals. Based on this insight, we propose Group Relative Attention Guidance, a
simple yet effective method that reweights the delta values of different tokens
to modulate the focus of the model on the input image relative to the editing
instruction, enabling continuous and fine-grained control over editing
intensity without any tuning. Extensive experiments conducted on existing image
editing frameworks demonstrate that GRAG can be integrated with as few as four
lines of code, consistently enhancing editing quality. Moreover, compared to
the commonly used Classifier-Free Guidance, GRAG achieves smoother and more
precise control over the degree of editing. Our code will be released at
https://github.com/little-misfit/GRAG-Image-Editing.