ChatPaper.aiChatPaper

DeLeaker: 텍스트-이미지 모델에서의 의미론적 정보 누출 완화를 위한 동적 추론 시점 재가중

DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models

October 16, 2025
저자: Mor Ventura, Michael Toker, Or Patashnik, Yonatan Belinkov, Roi Reichart
cs.AI

초록

텍스트-이미지(T2I) 모델은 빠르게 발전해 왔지만, 여전히 의미론적 누출(semantic leakage), 즉 서로 다른 개체 간에 의미론적으로 관련된 특성이 의도치 않게 전달되는 문제에 취약하다. 기존의 완화 전략은 주로 최적화 기반이거나 외부 입력에 의존하는 방식이었다. 본 연구에서는 경량화되고 최적화가 필요 없는 추론 시점 접근법인 DeLeaker를 소개한다. DeLeaker는 모델의 주의 맵(attention map)에 직접 개입하여 누출을 완화한다. 확산 과정 전반에 걸쳐 DeLeaker는 주의 맵을 동적으로 재가중하여 과도한 개체 간 상호작용을 억제하는 동시에 각 개체의 정체성을 강화한다. 체계적인 평가를 지원하기 위해, 우리는 의미론적 누출에 전념한 최초의 데이터셋인 SLIM(Semantic Leakage in IMages)을 도입했다. 이 데이터셋은 다양한 시나리오를 아우르는 1,130개의 인간 검증 샘플과 함께 새로운 자동 평가 프레임워크로 구성되어 있다. 실험 결과, DeLeaker는 외부 정보가 제공된 경우에도 모든 기준 모델을 일관되게 능가하며, 충실도나 품질을 저하시키지 않고 효과적인 누출 완화를 달성했다. 이러한 결과는 주의 제어의 가치를 강조하며, 더 의미론적으로 정확한 T2I 모델 개발의 길을 열어준다.
English
Text-to-Image (T2I) models have advanced rapidly, yet they remain vulnerable to semantic leakage, the unintended transfer of semantically related features between distinct entities. Existing mitigation strategies are often optimization-based or dependent on external inputs. We introduce DeLeaker, a lightweight, optimization-free inference-time approach that mitigates leakage by directly intervening on the model's attention maps. Throughout the diffusion process, DeLeaker dynamically reweights attention maps to suppress excessive cross-entity interactions while strengthening the identity of each entity. To support systematic evaluation, we introduce SLIM (Semantic Leakage in IMages), the first dataset dedicated to semantic leakage, comprising 1,130 human-verified samples spanning diverse scenarios, together with a novel automatic evaluation framework. Experiments demonstrate that DeLeaker consistently outperforms all baselines, even when they are provided with external information, achieving effective leakage mitigation without compromising fidelity or quality. These results underscore the value of attention control and pave the way for more semantically precise T2I models.
PDF11October 23, 2025