DeLeaker: Dynamische Herweging tijdens Inferentie voor het Mitigeren van Semantisch Lekken in Tekst-naar-Beeldmodellen
DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models
October 16, 2025
Auteurs: Mor Ventura, Michael Toker, Or Patashnik, Yonatan Belinkov, Roi Reichart
cs.AI
Samenvatting
Text-to-Image (T2I) modellen hebben een snelle vooruitgang geboekt, maar blijven kwetsbaar voor semantisch lekken, de onbedoelde overdracht van semantisch gerelateerde kenmerken tussen verschillende entiteiten. Bestaande mitigatiestrategieën zijn vaak gebaseerd op optimalisatie of afhankelijk van externe inputs. Wij introduceren DeLeaker, een lichtgewicht, optimalisatievrije aanpak tijdens de inferentie die lekken vermindert door direct in te grijpen op de aandachtkaarten van het model. Gedurende het diffusieproces herweegt DeLeaker dynamisch de aandachtkaarten om excessieve interacties tussen entiteiten te onderdrukken, terwijl de identiteit van elke entiteit wordt versterkt. Om systematische evaluatie mogelijk te maken, introduceren we SLIM (Semantic Leakage in IMages), de eerste dataset die specifiek gericht is op semantisch lekken, bestaande uit 1.130 door mensen geverifieerde voorbeelden die diverse scenario's bestrijken, samen met een nieuw automatisch evaluatieraamwerk. Experimenten tonen aan dat DeLeaker consistent alle referentiemodellen overtreft, zelfs wanneer deze externe informatie krijgen, en effectief lekken vermindert zonder in te leveren op trouw of kwaliteit. Deze resultaten onderstrepen de waarde van aandachtcontrole en openen de weg naar semantisch preciezere T2I-modellen.
English
Text-to-Image (T2I) models have advanced rapidly, yet they remain vulnerable
to semantic leakage, the unintended transfer of semantically related features
between distinct entities. Existing mitigation strategies are often
optimization-based or dependent on external inputs. We introduce DeLeaker, a
lightweight, optimization-free inference-time approach that mitigates leakage
by directly intervening on the model's attention maps. Throughout the diffusion
process, DeLeaker dynamically reweights attention maps to suppress excessive
cross-entity interactions while strengthening the identity of each entity. To
support systematic evaluation, we introduce SLIM (Semantic Leakage in IMages),
the first dataset dedicated to semantic leakage, comprising 1,130
human-verified samples spanning diverse scenarios, together with a novel
automatic evaluation framework. Experiments demonstrate that DeLeaker
consistently outperforms all baselines, even when they are provided with
external information, achieving effective leakage mitigation without
compromising fidelity or quality. These results underscore the value of
attention control and pave the way for more semantically precise T2I models.