DeLeaker: Dynamische Herweging tijdens Inferentie voor het Mitigeren van Semantisch Lekken in Tekst-naar-Beeldmodellen

Samenvatting

Text-to-Image (T2I) modellen hebben een snelle vooruitgang geboekt, maar blijven kwetsbaar voor semantisch lekken, de onbedoelde overdracht van semantisch gerelateerde kenmerken tussen verschillende entiteiten. Bestaande mitigatiestrategieën zijn vaak gebaseerd op optimalisatie of afhankelijk van externe inputs. Wij introduceren DeLeaker, een lichtgewicht, optimalisatievrije aanpak tijdens de inferentie die lekken vermindert door direct in te grijpen op de aandachtkaarten van het model. Gedurende het diffusieproces herweegt DeLeaker dynamisch de aandachtkaarten om excessieve interacties tussen entiteiten te onderdrukken, terwijl de identiteit van elke entiteit wordt versterkt. Om systematische evaluatie mogelijk te maken, introduceren we SLIM (Semantic Leakage in IMages), de eerste dataset die specifiek gericht is op semantisch lekken, bestaande uit 1.130 door mensen geverifieerde voorbeelden die diverse scenario's bestrijken, samen met een nieuw automatisch evaluatieraamwerk. Experimenten tonen aan dat DeLeaker consistent alle referentiemodellen overtreft, zelfs wanneer deze externe informatie krijgen, en effectief lekken vermindert zonder in te leveren op trouw of kwaliteit. Deze resultaten onderstrepen de waarde van aandachtcontrole en openen de weg naar semantisch preciezere T2I-modellen.

English

Text-to-Image (T2I) models have advanced rapidly, yet they remain vulnerable to semantic leakage, the unintended transfer of semantically related features between distinct entities. Existing mitigation strategies are often optimization-based or dependent on external inputs. We introduce DeLeaker, a lightweight, optimization-free inference-time approach that mitigates leakage by directly intervening on the model's attention maps. Throughout the diffusion process, DeLeaker dynamically reweights attention maps to suppress excessive cross-entity interactions while strengthening the identity of each entity. To support systematic evaluation, we introduce SLIM (Semantic Leakage in IMages), the first dataset dedicated to semantic leakage, comprising 1,130 human-verified samples spanning diverse scenarios, together with a novel automatic evaluation framework. Experiments demonstrate that DeLeaker consistently outperforms all baselines, even when they are provided with external information, achieving effective leakage mitigation without compromising fidelity or quality. These results underscore the value of attention control and pave the way for more semantically precise T2I models.

DeLeaker: Dynamische Herweging tijdens Inferentie voor het Mitigeren van Semantisch Lekken in Tekst-naar-Beeldmodellen

DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models

Samenvatting

Support