Gruppenrelative Aufmerksamkeitssteuerung für Bildbearbeitung
Group Relative Attention Guidance for Image Editing
October 28, 2025
papers.authors: Xuanpu Zhang, Xuesong Niu, Ruidong Chen, Dan Song, Jianhao Zeng, Penghui Du, Haoxiang Cao, Kai Wu, An-an Liu
cs.AI
papers.abstract
Kürzlich hat die Bildbearbeitung auf Basis von Diffusion-in-Transformer-Modellen eine rasante Entwicklung durchlaufen. Bestehende Bearbeitungsmethoden ermöglichen jedoch oft keine effektive Steuerung des Bearbeitungsgrades, was ihre Fähigkeit zur Erzielung stärker individualisierter Ergebnisse einschränkt. Um diese Einschränkung zu adressieren, untersuchen wir den MM-Attention-Mechanismus innerhalb des DiT-Modells und stellen fest, dass die Query- und Key-Tokens einen Bias-Vektor teilen, der nur von der Ebene abhängt. Wir interpretieren diesen Bias als Repräsentation des inherenten Bearbeitungsverhaltens des Modells, während die Delta-Werte zwischen jedem Token und seinem entsprechenden Bias die inhalts-spezifischen Bearbeitungssignale kodieren. Aufbauend auf dieser Erkenntnis schlagen wir Group Relative Attention Guidance (GRAG) vor, eine einfache, aber effektive Methode, die die Delta-Werte verschiedener Tokens neu gewichtet, um den Fokus des Modells auf das Eingabebild relativ zur Bearbeitungsanweisung zu modulieren. Dies ermöglicht eine kontinuierliche und fein abgestufte Steuerung der Bearbeitungsintensität ohne jegliche Anpassung. Umfangreiche Experimente mit bestehenden Bildbearbeitungs-Frameworks zeigen, dass GRAG mit nur vier Codezeilen integriert werden kann und dabei konsistent die Bearbeitungsqualität verbessert. Darüber hinaus erreicht GRAG im Vergleich zur häufig verwendeten Classifier-Free Guidance eine glattere und präzisere Steuerung des Bearbeitungsgrades. Unser Code wird unter https://github.com/little-misfit/GRAG-Image-Editing veröffentlicht.
English
Recently, image editing based on Diffusion-in-Transformer models has
undergone rapid development. However, existing editing methods often lack
effective control over the degree of editing, limiting their ability to achieve
more customized results. To address this limitation, we investigate the
MM-Attention mechanism within the DiT model and observe that the Query and Key
tokens share a bias vector that is only layer-dependent. We interpret this bias
as representing the model's inherent editing behavior, while the delta between
each token and its corresponding bias encodes the content-specific editing
signals. Based on this insight, we propose Group Relative Attention Guidance, a
simple yet effective method that reweights the delta values of different tokens
to modulate the focus of the model on the input image relative to the editing
instruction, enabling continuous and fine-grained control over editing
intensity without any tuning. Extensive experiments conducted on existing image
editing frameworks demonstrate that GRAG can be integrated with as few as four
lines of code, consistently enhancing editing quality. Moreover, compared to
the commonly used Classifier-Free Guidance, GRAG achieves smoother and more
precise control over the degree of editing. Our code will be released at
https://github.com/little-misfit/GRAG-Image-Editing.