ChatPaper.aiChatPaper

DeLeaker: Динамическое перевзвешивание во время вывода для устранения семантической утечки в моделях генерации изображений по тексту

DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models

October 16, 2025
Авторы: Mor Ventura, Michael Toker, Or Patashnik, Yonatan Belinkov, Roi Reichart
cs.AI

Аннотация

Модели генерации изображений по текстовому описанию (Text-to-Image, T2I) быстро развиваются, однако они остаются уязвимыми к семантической утечке — непреднамеренному переносу семантически связанных признаков между различными объектами. Существующие методы устранения этой проблемы часто основаны на оптимизации или зависят от внешних данных. Мы представляем DeLeaker — легковесный подход, не требующий оптимизации и работающий на этапе вывода, который устраняет утечку путем прямого вмешательства в карты внимания модели. На протяжении процесса диффузии DeLeaker динамически перевзвешивает карты внимания, чтобы подавить чрезмерное взаимодействие между объектами, одновременно усиливая идентичность каждого из них. Для систематической оценки мы представляем SLIM (Semantic Leakage in IMages) — первый набор данных, посвященный семантической утечке, включающий 1130 образцов, проверенных вручную и охватывающих разнообразные сценарии, а также новую автоматизированную систему оценки. Эксперименты показывают, что DeLeaker стабильно превосходит все базовые методы, даже когда они используют внешнюю информацию, эффективно устраняя утечку без ущерба для точности или качества. Эти результаты подчеркивают ценность управления вниманием и прокладывают путь к созданию более семантически точных T2I-моделей.
English
Text-to-Image (T2I) models have advanced rapidly, yet they remain vulnerable to semantic leakage, the unintended transfer of semantically related features between distinct entities. Existing mitigation strategies are often optimization-based or dependent on external inputs. We introduce DeLeaker, a lightweight, optimization-free inference-time approach that mitigates leakage by directly intervening on the model's attention maps. Throughout the diffusion process, DeLeaker dynamically reweights attention maps to suppress excessive cross-entity interactions while strengthening the identity of each entity. To support systematic evaluation, we introduce SLIM (Semantic Leakage in IMages), the first dataset dedicated to semantic leakage, comprising 1,130 human-verified samples spanning diverse scenarios, together with a novel automatic evaluation framework. Experiments demonstrate that DeLeaker consistently outperforms all baselines, even when they are provided with external information, achieving effective leakage mitigation without compromising fidelity or quality. These results underscore the value of attention control and pave the way for more semantically precise T2I models.
PDF11October 23, 2025