DeLeaker: Reponderação Dinâmica no Tempo de Inferência para Mitigação de Vazamento Semântico em Modelos de Texto para Imagem
DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models
October 16, 2025
Autores: Mor Ventura, Michael Toker, Or Patashnik, Yonatan Belinkov, Roi Reichart
cs.AI
Resumo
Os modelos de Texto para Imagem (T2I) avançaram rapidamente, mas ainda permanecem vulneráveis ao vazamento semântico, a transferência não intencional de características semanticamente relacionadas entre entidades distintas. As estratégias existentes de mitigação são frequentemente baseadas em otimização ou dependentes de entradas externas. Apresentamos o DeLeaker, uma abordagem leve e livre de otimização durante a inferência que mitiga o vazamento ao intervir diretamente nos mapas de atenção do modelo. Ao longo do processo de difusão, o DeLeaker reajusta dinamicamente os mapas de atenção para suprimir interações excessivas entre entidades, ao mesmo tempo em que fortalece a identidade de cada entidade. Para apoiar uma avaliação sistemática, introduzimos o SLIM (Vazamento Semântico em IMagens), o primeiro conjunto de dados dedicado ao vazamento semântico, composto por 1.130 amostras verificadas por humanos que abrangem diversos cenários, juntamente com uma nova estrutura de avaliação automática. Experimentos demonstram que o DeLeaker supera consistentemente todas as linhas de base, mesmo quando estas recebem informações externas, alcançando uma mitigação eficaz do vazamento sem comprometer a fidelidade ou a qualidade. Esses resultados destacam o valor do controle de atenção e abrem caminho para modelos T2I semanticamente mais precisos.
English
Text-to-Image (T2I) models have advanced rapidly, yet they remain vulnerable
to semantic leakage, the unintended transfer of semantically related features
between distinct entities. Existing mitigation strategies are often
optimization-based or dependent on external inputs. We introduce DeLeaker, a
lightweight, optimization-free inference-time approach that mitigates leakage
by directly intervening on the model's attention maps. Throughout the diffusion
process, DeLeaker dynamically reweights attention maps to suppress excessive
cross-entity interactions while strengthening the identity of each entity. To
support systematic evaluation, we introduce SLIM (Semantic Leakage in IMages),
the first dataset dedicated to semantic leakage, comprising 1,130
human-verified samples spanning diverse scenarios, together with a novel
automatic evaluation framework. Experiments demonstrate that DeLeaker
consistently outperforms all baselines, even when they are provided with
external information, achieving effective leakage mitigation without
compromising fidelity or quality. These results underscore the value of
attention control and pave the way for more semantically precise T2I models.