ChatPaper.aiChatPaper

DeContext comme défense : édition d'image sécurisée dans les transformeurs de diffusion

DeContext as Defense: Safe Image Editing in Diffusion Transformers

December 18, 2025
papers.authors: Linghui Shen, Mingyue Cui, Xingyi Yang
cs.AI

papers.abstract

Les modèles de diffusion contextuelle permettent aux utilisateurs de modifier des images avec une facilité et un réalisme remarquables. Cependant, cette même puissance soulève de sérieuses préoccupations en matière de vie privée : des images personnelles peuvent être facilement manipulées pour l'usurpation d'identité, la désinformation ou d'autres utilisations malveillantes, le tout sans le consentement du propriétaire. Si des travaux antérieurs ont exploré les perturbations en entrée pour se protéger contre les mauvais usages dans la génération d'images personnalisées par texte, la robustesse des modèles contextuels modernes à grande échelle basés sur DiT reste largement inexplorée. Dans cet article, nous proposons DeContext, une nouvelle méthode pour protéger les images d'entrée contre l'édition contextuelle non autorisée. Notre idée clé est que l'information contextuelle de l'image source se propage vers la sortie principalement via les couches d'attention multimodales. En injectant de petites perturbations ciblées qui affaiblissent ces chemins d'attention croisée, DeContext rompt ce flux, découplant efficacement le lien entre l'entrée et la sortie. Cette défense simple est à la fois efficace et robuste. Nous montrons en outre que les premières étapes de débruitage et certains blocs de transformateurs dominent la propagation du contexte, ce qui nous permet de concentrer les perturbations là où elles comptent le plus. Les expériences sur Flux Kontext et Step1X-Edit montrent que DeContext bloque systématiquement les modifications d'images non souhaitées tout en préservant la qualité visuelle. Ces résultats soulignent l'efficacité des perturbations basées sur l'attention comme une défense puissante contre la manipulation d'images.
English
In-context diffusion models allow users to modify images with remarkable ease and realism. However, the same power raises serious privacy concerns: personal images can be easily manipulated for identity impersonation, misinformation, or other malicious uses, all without the owner's consent. While prior work has explored input perturbations to protect against misuse in personalized text-to-image generation, the robustness of modern, large-scale in-context DiT-based models remains largely unexamined. In this paper, we propose DeContext, a new method to safeguard input images from unauthorized in-context editing. Our key insight is that contextual information from the source image propagates to the output primarily through multimodal attention layers. By injecting small, targeted perturbations that weaken these cross-attention pathways, DeContext breaks this flow, effectively decouples the link between input and output. This simple defense is both efficient and robust. We further show that early denoising steps and specific transformer blocks dominate context propagation, which allows us to concentrate perturbations where they matter most. Experiments on Flux Kontext and Step1X-Edit show that DeContext consistently blocks unwanted image edits while preserving visual quality. These results highlight the effectiveness of attention-based perturbations as a powerful defense against image manipulation.
PDF222December 20, 2025