Groepsrelatieve Aandachtsturing voor Beeldbewerking

Samenvatting

Onlangs heeft beeldbewerking op basis van Diffusion-in-Transformer-modellen een snelle ontwikkeling doorgemaakt. Bestaande bewerkingsmethoden ontberen echter vaak een effectieve controle over de bewerkingsgraad, wat hun vermogen beperkt om meer gepersonaliseerde resultaten te bereiken. Om deze beperking aan te pakken, onderzoeken we het MM-Attention-mechanisme binnen het DiT-model en observeren we dat de Query- en Key-tokens een biasvector delen die alleen van de laag afhankelijk is. Wij interpreteren deze bias als een representatie van het inherente bewerkingsgedrag van het model, terwijl de delta tussen elke token en de bijbehorende bias de inhoudsspecifieke bewerkingssignalen codeert. Gebaseerd op dit inzicht stellen we Group Relative Attention Guidance voor, een eenvoudige maar effectieve methode die de deltawaarden van verschillende tokens herweegt om de focus van het model op de invoerafbeelding ten opzichte van de bewerkingsinstructie te moduleren. Dit maakt continue en fijnmazige controle over de bewerkingsintensiteit mogelijk zonder enige afstemming. Uitgebreide experimenten uitgevoerd met bestaande beeldbewerkingsframeworks tonen aan dat GRAG kan worden geïntegreerd met slechts vier regels code, waarbij consistent de bewerkingskwaliteit wordt verbeterd. Vergeleken met de veelgebruikte Classifier-Free Guidance bereikt GRAG bovendien een soepelere en preciezere controle over de bewerkingsgraad. Onze code wordt vrijgegeven op https://github.com/little-misfit/GRAG-Image-Editing.

English

Recently, image editing based on Diffusion-in-Transformer models has undergone rapid development. However, existing editing methods often lack effective control over the degree of editing, limiting their ability to achieve more customized results. To address this limitation, we investigate the MM-Attention mechanism within the DiT model and observe that the Query and Key tokens share a bias vector that is only layer-dependent. We interpret this bias as representing the model's inherent editing behavior, while the delta between each token and its corresponding bias encodes the content-specific editing signals. Based on this insight, we propose Group Relative Attention Guidance, a simple yet effective method that reweights the delta values of different tokens to modulate the focus of the model on the input image relative to the editing instruction, enabling continuous and fine-grained control over editing intensity without any tuning. Extensive experiments conducted on existing image editing frameworks demonstrate that GRAG can be integrated with as few as four lines of code, consistently enhancing editing quality. Moreover, compared to the commonly used Classifier-Free Guidance, GRAG achieves smoother and more precise control over the degree of editing. Our code will be released at https://github.com/little-misfit/GRAG-Image-Editing.

Groepsrelatieve Aandachtsturing voor Beeldbewerking

Group Relative Attention Guidance for Image Editing

Samenvatting

Support