PrivacyLens: Avaliando a Consciência das Normas de Privacidade dos Modelos de Linguagem em Ação
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action
August 29, 2024
Autores: Yijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang
cs.AI
Resumo
Como os modelos de linguagem (LMs) são amplamente utilizados em cenários de comunicação personalizada (por exemplo, envio de e-mails, redação de posts em redes sociais) e dotados de um certo nível de agência, garantir que atuem de acordo com as normas contextuais de privacidade torna-se cada vez mais crítico. No entanto, quantificar a consciência das normas de privacidade dos LMs e o surgimento do risco de privacidade na comunicação mediada por LMs é desafiador devido a (1) natureza contextual e de longa cauda dos casos sensíveis à privacidade e (2) à falta de abordagens de avaliação que capturem cenários de aplicação realistas. Para enfrentar esses desafios, propomos o PrivacyLens, um novo framework projetado para estender sementes sensíveis à privacidade em vinhetas expressivas e posteriormente em trajetórias de agentes, possibilitando a avaliação em vários níveis do vazamento de privacidade nas ações dos agentes LM. Nós instanciamos o PrivacyLens com uma coleção de normas de privacidade fundamentadas na literatura de privacidade e sementes coletadas por crowdsourcing. Usando esse conjunto de dados, revelamos uma discrepância entre o desempenho dos LMs ao responder perguntas investigativas e seu comportamento real ao executar instruções de usuário em um ambiente de agente. Modelos de LMs de ponta, como GPT-4 e Llama-3-70B, vazam informações sensíveis em 25,68% e 38,69% dos casos, mesmo quando solicitados com instruções que melhoram a privacidade. Também demonstramos a natureza dinâmica do PrivacyLens ao estender cada semente em múltiplas trajetórias para avaliar o risco de vazamento de privacidade dos LMs. O conjunto de dados e o código estão disponíveis em https://github.com/SALT-NLP/PrivacyLens.
English
As language models (LMs) are widely utilized in personalized communication
scenarios (e.g., sending emails, writing social media posts) and endowed with a
certain level of agency, ensuring they act in accordance with the contextual
privacy norms becomes increasingly critical. However, quantifying the privacy
norm awareness of LMs and the emerging privacy risk in LM-mediated
communication is challenging due to (1) the contextual and long-tailed nature
of privacy-sensitive cases, and (2) the lack of evaluation approaches that
capture realistic application scenarios. To address these challenges, we
propose PrivacyLens, a novel framework designed to extend privacy-sensitive
seeds into expressive vignettes and further into agent trajectories, enabling
multi-level evaluation of privacy leakage in LM agents' actions. We instantiate
PrivacyLens with a collection of privacy norms grounded in privacy literature
and crowdsourced seeds. Using this dataset, we reveal a discrepancy between LM
performance in answering probing questions and their actual behavior when
executing user instructions in an agent setup. State-of-the-art LMs, like GPT-4
and Llama-3-70B, leak sensitive information in 25.68% and 38.69% of cases, even
when prompted with privacy-enhancing instructions. We also demonstrate the
dynamic nature of PrivacyLens by extending each seed into multiple trajectories
to red-team LM privacy leakage risk. Dataset and code are available at
https://github.com/SALT-NLP/PrivacyLens.Summary
AI-Generated Summary