DeLeaker : Rééquilibrage Dynamique à l'Inférence pour l'Atténuation des Fuites Sémantiques dans les Modèles de Texte-à-Image

papers.abstract

Les modèles de génération d'images à partir de texte (Text-to-Image, T2I) ont progressé rapidement, mais ils restent vulnérables à la fuite sémantique, c'est-à-dire au transfert involontaire de caractéristiques sémantiquement liées entre des entités distinctes. Les stratégies existantes pour atténuer ce phénomène reposent souvent sur des méthodes d'optimisation ou dépendent d'entrées externes. Nous présentons DeLeaker, une approche légère et sans optimisation, intervenant au moment de l'inférence, qui atténue la fuite sémantique en intervenant directement sur les cartes d'attention du modèle. Tout au long du processus de diffusion, DeLeaker réajuste dynamiquement les cartes d'attention pour supprimer les interactions excessives entre entités tout en renforçant l'identité de chacune d'elles. Pour permettre une évaluation systématique, nous introduisons SLIM (Semantic Leakage in IMages), le premier jeu de données dédié à la fuite sémantique, comprenant 1 130 échantillons vérifiés par des humains couvrant divers scénarios, ainsi qu'un nouveau cadre d'évaluation automatique. Les expériences montrent que DeLeaker surpasse systématiquement toutes les méthodes de référence, même lorsqu'elles bénéficient d'informations externes, en atténuant efficacement la fuite sémantique sans compromettre la fidélité ou la qualité des images. Ces résultats mettent en lumière la valeur du contrôle de l'attention et ouvrent la voie à des modèles T2I plus précis sur le plan sémantique.

English

Text-to-Image (T2I) models have advanced rapidly, yet they remain vulnerable to semantic leakage, the unintended transfer of semantically related features between distinct entities. Existing mitigation strategies are often optimization-based or dependent on external inputs. We introduce DeLeaker, a lightweight, optimization-free inference-time approach that mitigates leakage by directly intervening on the model's attention maps. Throughout the diffusion process, DeLeaker dynamically reweights attention maps to suppress excessive cross-entity interactions while strengthening the identity of each entity. To support systematic evaluation, we introduce SLIM (Semantic Leakage in IMages), the first dataset dedicated to semantic leakage, comprising 1,130 human-verified samples spanning diverse scenarios, together with a novel automatic evaluation framework. Experiments demonstrate that DeLeaker consistently outperforms all baselines, even when they are provided with external information, achieving effective leakage mitigation without compromising fidelity or quality. These results underscore the value of attention control and pave the way for more semantically precise T2I models.

DeLeaker : Rééquilibrage Dynamique à l'Inférence pour l'Atténuation des Fuites Sémantiques dans les Modèles de Texte-à-Image

DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models

papers.abstract

Support