DeLeaker: Reasignación Dinámica en Tiempo de Inferencia para la Mitigación de Fugas Semánticas en Modelos de Texto a Imagen

Resumen

Los modelos de Texto a Imagen (T2I) han avanzado rápidamente, pero siguen siendo vulnerables a la fuga semántica, la transferencia no intencionada de características semánticamente relacionadas entre entidades distintas. Las estrategias de mitigación existentes suelen basarse en optimización o dependen de entradas externas. Presentamos DeLeaker, un enfoque ligero y libre de optimización en tiempo de inferencia que mitiga la fuga mediante la intervención directa en los mapas de atención del modelo. A lo largo del proceso de difusión, DeLeaker reajusta dinámicamente los mapas de atención para suprimir las interacciones excesivas entre entidades mientras refuerza la identidad de cada una. Para apoyar la evaluación sistemática, introducimos SLIM (Semantic Leakage in IMages), el primer conjunto de datos dedicado a la fuga semántica, que comprende 1,130 muestras verificadas por humanos en diversos escenarios, junto con un novedoso marco de evaluación automática. Los experimentos demuestran que DeLeaker supera consistentemente a todos los métodos de referencia, incluso cuando estos reciben información externa, logrando una mitigación efectiva de la fuga sin comprometer la fidelidad o la calidad. Estos resultados subrayan el valor del control de la atención y allanan el camino para modelos T2I semánticamente más precisos.

English

Text-to-Image (T2I) models have advanced rapidly, yet they remain vulnerable to semantic leakage, the unintended transfer of semantically related features between distinct entities. Existing mitigation strategies are often optimization-based or dependent on external inputs. We introduce DeLeaker, a lightweight, optimization-free inference-time approach that mitigates leakage by directly intervening on the model's attention maps. Throughout the diffusion process, DeLeaker dynamically reweights attention maps to suppress excessive cross-entity interactions while strengthening the identity of each entity. To support systematic evaluation, we introduce SLIM (Semantic Leakage in IMages), the first dataset dedicated to semantic leakage, comprising 1,130 human-verified samples spanning diverse scenarios, together with a novel automatic evaluation framework. Experiments demonstrate that DeLeaker consistently outperforms all baselines, even when they are provided with external information, achieving effective leakage mitigation without compromising fidelity or quality. These results underscore the value of attention control and pave the way for more semantically precise T2I models.

DeLeaker: Reasignación Dinámica en Tiempo de Inferencia para la Mitigación de Fugas Semánticas en Modelos de Texto a Imagen

DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models

Resumen

Support