ChatPaper.aiChatPaper

DeContext als Verteidigung: Sicheres Bildbearbeiten in Diffusion Transformern

DeContext as Defense: Safe Image Editing in Diffusion Transformers

December 18, 2025
papers.authors: Linghui Shen, Mingyue Cui, Xingyi Yang
cs.AI

papers.abstract

Kontextbasierte Diffusionsmodelle ermöglichen es Nutzern, Bilder mit bemerkenswerter Leichtigkeit und Realismus zu verändern. Diese Fähigkeit wirft jedoch ernsthafte Datenschutzbedenken auf: Persönliche Bilder können ohne Einwilligung der Eigentümer leicht zur Identitätsnachahmung, zur Verbreitung von Fehlinformationen oder für andere böswillige Zwecke manipuliert werden. Während frühere Arbeiten Eingabeperturbationen zum Schutz vor Missbrauch in der personalisierten Text-zu-Bild-Generierung untersucht haben, ist die Robustheit moderner, großskalierender, auf DiT basierender Kontextmodelle weitgehend unerforscht. In diesem Artikel stellen wir DeContext vor, eine neue Methode zum Schutz von Eingabebildern vor unbefugter kontextbasierter Bearbeitung. Unsere zentrale Erkenntnis ist, dass Kontextinformationen aus dem Quellbild sich hauptsächlich über multimodale Attention-Schichten zur Ausgabe fortpflanzen. Durch das Einbringen kleiner, gezielter Perturbationen, die diese Cross-Attention-Pfade schwächen, unterbricht DeContext diesen Fluss und entkoppelt effektiv die Verbindung zwischen Eingabe und Ausgabe. Diese einfache Verteidigung ist sowohl effizient als auch robust. Wir zeigen weiter, dass frühe Entrauschungsschritte und spezifische Transformer-Blöcke die Kontextausbreitung dominieren, was es uns ermöglicht, Perturbationen dort zu konzentrieren, wo sie am wichtigsten sind. Experimente mit Flux Kontext und Step1X-Edit zeigen, dass DeContext unerwünschte Bildbearbeitungen konsistent blockiert und dabei die visuelle Qualität erhält. Diese Ergebnisse unterstreichen die Wirksamkeit von auf Attention basierenden Perturbationen als wirksamen Schutz gegen Bildmanipulation.
English
In-context diffusion models allow users to modify images with remarkable ease and realism. However, the same power raises serious privacy concerns: personal images can be easily manipulated for identity impersonation, misinformation, or other malicious uses, all without the owner's consent. While prior work has explored input perturbations to protect against misuse in personalized text-to-image generation, the robustness of modern, large-scale in-context DiT-based models remains largely unexamined. In this paper, we propose DeContext, a new method to safeguard input images from unauthorized in-context editing. Our key insight is that contextual information from the source image propagates to the output primarily through multimodal attention layers. By injecting small, targeted perturbations that weaken these cross-attention pathways, DeContext breaks this flow, effectively decouples the link between input and output. This simple defense is both efficient and robust. We further show that early denoising steps and specific transformer blocks dominate context propagation, which allows us to concentrate perturbations where they matter most. Experiments on Flux Kontext and Step1X-Edit show that DeContext consistently blocks unwanted image edits while preserving visual quality. These results highlight the effectiveness of attention-based perturbations as a powerful defense against image manipulation.
PDF222December 20, 2025