Anonimização de LLMs Contra Reidentificação Agêntica

Resumo

Os LLMs agentivos com pesquisa na web alteram o modelo de ameaça para anonimização de texto: pistas contextuais fracas podem tornar-se evidências passíveis de referência cruzada para reidentificação, embora esses mesmos detalhes também carreguem valor analítico downstream do texto. As defesas existentes removem identificadores explícitos, perturbam o texto para privacidade formal ou testam o texto reescrito contra modelos de inferência não baseados na web, deixando subexplorada a região operacional entre resistência à reidentificação agentiva por pesquisa na web e retenção de utilidade. Apresentamos AURA (Anonymization with Utility-Retention Adaptation), uma estrutura de mascaramento e reconstrução baseada em LLM que desacopla a localização da privacidade da reconstrução que preserva a utilidade e seleciona candidatos com verificações adversariais de privacidade e retenção de utilidade. Avaliamos AURA em transcrições de entrevistas com usuários reais, utilizando ataques de reidentificação realizados por agentes de pesquisa na web, juntamente com uma avaliação de utilidade baseada em fatos de perfil do entrevistado, fatos de livro de códigos e a grade de utilidade contextual conjunta. Nossos resultados mostram que AURA melhora a fronteira privacidade-utilidade ao usar um escopo de privacidade adaptativo para fortalecer a resistência à reidentificação agentiva e ao usar um método de anonimização por mascaramento e reconstrução para melhor preservar a utilidade contextual sob escopo fixo de privacidade.

English

Agentic LLMs with web search change the threat model for text anonymization: weak contextual cues can become cross-referenceable evidence for re-identification, yet those same details also carry downstream analytic value of the text. Existing defenses either remove explicit identifiers, perturb text for formal privacy, or test rewritten text against non-web inference models, leaving underexplored the operating region between resistance to agentic web-search re-identification and utility retention. We introduce AURA (Anonymization with Utility-Retention Adaptation), an LLM-powered mask-reconstruct framework that decouples privacy localization from utility-preserving reconstruction and selects candidates with adversarial privacy and utility-retention checks. We evaluate AURA on real-user interview transcripts using re-identification attacks carried out by web-search agents, along with a utility evaluation based on interviewee-profile facts, codebook facts, and the joint contextual utility grid. Our results show that AURA improves the privacy-utility frontier by using adaptive privacy scope to strengthen resistance to agentic re-identification and using a mask-reconstruct anonymization method to better preserve contextual utility under fixed privacy scope.