DeLeaker: Ricalibrazione Dinamica al Momento dell'Inferenza per la Mitigazione della Fuga Semantica nei Modelli di Generazione di Immagini da Testo

Abstract

I modelli Text-to-Image (T2I) hanno fatto rapidi progressi, ma rimangono vulnerabili alla perdita semantica, ovvero al trasferimento involontario di caratteristiche semanticamente correlate tra entità distinte. Le strategie di mitigazione esistenti sono spesso basate sull'ottimizzazione o dipendono da input esterni. Introduciamo DeLeaker, un approccio leggero e privo di ottimizzazione al momento dell'inferenza, che mitiga la perdita intervenendo direttamente sulle mappe di attenzione del modello. Durante il processo di diffusione, DeLeaker ricalcola dinamicamente i pesi delle mappe di attenzione per sopprimere le interazioni eccessive tra entità, rafforzando al contempo l'identità di ciascuna entità. Per supportare una valutazione sistematica, introduciamo SLIM (Semantic Leakage in IMages), il primo dataset dedicato alla perdita semantica, composto da 1.130 campioni verificati manualmente che coprono scenari diversificati, insieme a un nuovo framework di valutazione automatica. Gli esperimenti dimostrano che DeLeaker supera costantemente tutti i metodi di riferimento, anche quando questi dispongono di informazioni esterne, ottenendo una mitigazione efficace della perdita senza compromettere la fedeltà o la qualità. Questi risultati sottolineano il valore del controllo dell'attenzione e aprono la strada a modelli T2I semanticamente più precisi.

English

Text-to-Image (T2I) models have advanced rapidly, yet they remain vulnerable to semantic leakage, the unintended transfer of semantically related features between distinct entities. Existing mitigation strategies are often optimization-based or dependent on external inputs. We introduce DeLeaker, a lightweight, optimization-free inference-time approach that mitigates leakage by directly intervening on the model's attention maps. Throughout the diffusion process, DeLeaker dynamically reweights attention maps to suppress excessive cross-entity interactions while strengthening the identity of each entity. To support systematic evaluation, we introduce SLIM (Semantic Leakage in IMages), the first dataset dedicated to semantic leakage, comprising 1,130 human-verified samples spanning diverse scenarios, together with a novel automatic evaluation framework. Experiments demonstrate that DeLeaker consistently outperforms all baselines, even when they are provided with external information, achieving effective leakage mitigation without compromising fidelity or quality. These results underscore the value of attention control and pave the way for more semantically precise T2I models.

DeLeaker: Ricalibrazione Dinamica al Momento dell'Inferenza per la Mitigazione della Fuga Semantica nei Modelli di Generazione di Immagini da Testo

DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models

Abstract

Support