LLM-Anonymisierung gegen agentische Re-Identifikation

Zusammenfassung

Agentische LLMs mit Websuche verändern das Bedrohungsmodell für die Textanonymisierung: Schwache kontextuelle Hinweise können zu querverweisbaren Beweisen für eine Re-Identifikation werden, doch dieselben Details tragen gleichzeitig einen nachgelagerten Analysewert des Textes. Bestehende Abwehrmaßnahmen entfernen entweder explizite Identifikatoren, verrauschen Text für formale Privatsphäre oder testen umgeschriebenen Text gegen Nicht-Web-Inferenzmodelle, wobei der Operationsbereich zwischen Widerstandsfähigkeit gegenüber agentischer Websuche-Re-Identifikation und Nutzenerhalt wenig erforscht bleibt. Wir stellen AURA (Anonymization with Utility-Retention Adaptation) vor, ein LLM-gestütztes Masken-Rekonstruktions-Framework, das die Privatsphärenlokalisierung von der nutzenerhaltenden Rekonstruktion entkoppelt und Kandidaten mittels adversarieller Privatsphären- und Nutzenerhaltungsprüfungen auswählt. Wir evaluieren AURA an Transkripten von Interviews mit echten Nutzern unter Verwendung von Re-Identifikationsangriffen, die von Websuchagenten durchgeführt werden, sowie einer Nutzenevaluierung basierend auf Fakten zum Interviewtenprofil, Codebuch-Fakten und dem gemeinsamen kontextuellen Nutzenraster. Unsere Ergebnisse zeigen, dass AURA die Privatsphäre-Nutzen-Grenze verbessert, indem es einen adaptiven Privatsphärenumfang nutzt, um die Widerstandsfähigkeit gegenüber agentischer Re-Identifikation zu stärken, und eine Masken-Rekonstruktions-Anonymisierungsmethode verwendet, um den kontextuellen Nutzen bei festgelegtem Privatsphärenumfang besser zu bewahren.

English

Agentic LLMs with web search change the threat model for text anonymization: weak contextual cues can become cross-referenceable evidence for re-identification, yet those same details also carry downstream analytic value of the text. Existing defenses either remove explicit identifiers, perturb text for formal privacy, or test rewritten text against non-web inference models, leaving underexplored the operating region between resistance to agentic web-search re-identification and utility retention. We introduce AURA (Anonymization with Utility-Retention Adaptation), an LLM-powered mask-reconstruct framework that decouples privacy localization from utility-preserving reconstruction and selects candidates with adversarial privacy and utility-retention checks. We evaluate AURA on real-user interview transcripts using re-identification attacks carried out by web-search agents, along with a utility evaluation based on interviewee-profile facts, codebook facts, and the joint contextual utility grid. Our results show that AURA improves the privacy-utility frontier by using adaptive privacy scope to strengthen resistance to agentic re-identification and using a mask-reconstruct anonymization method to better preserve contextual utility under fixed privacy scope.