PrivacyLens : Évaluation de la conscience des normes de confidentialité des modèles de langage en action
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action
August 29, 2024
Auteurs: Yijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang
cs.AI
Résumé
Étant donné que les modèles de langage (LM) sont largement utilisés dans des scénarios de communication personnalisée (par exemple, l'envoi d'e-mails, la rédaction de publications sur les réseaux sociaux) et dotés d'un certain niveau d'agence, il est de plus en plus crucial de veiller à ce qu'ils agissent conformément aux normes de confidentialité contextuelles. Cependant, quantifier la sensibilisation des LM aux normes de confidentialité et le risque émergent pour la confidentialité dans la communication médiatisée par les LM est difficile en raison (1) de la nature contextuelle et à longue traîne des cas sensibles à la confidentialité, et (2) du manque d'approches d'évaluation qui captent des scénarios d'application réalistes. Pour relever ces défis, nous proposons PrivacyLens, un nouveau cadre conçu pour étendre des graines sensibles à la confidentialité en vignettes expressives, puis en trajectoires d'agents, permettant une évaluation multi-niveaux des fuites de confidentialité dans les actions des agents LM. Nous instancions PrivacyLens avec une collection de normes de confidentialité ancrées dans la littérature sur la confidentialité et des graines obtenues auprès du public. En utilisant cet ensemble de données, nous révélons une disparité entre les performances des LM pour répondre à des questions d'investigation et leur comportement réel lors de l'exécution d'instructions utilisateur dans un environnement d'agent. Les LM de pointe, tels que GPT-4 et Llama-3-70B, divulguent des informations sensibles dans 25,68 % et 38,69 % des cas, même lorsqu'ils sont sollicités avec des instructions renforçant la confidentialité. Nous démontrons également la nature dynamique de PrivacyLens en étendant chaque graine en plusieurs trajectoires pour évaluer le risque de fuite de confidentialité des LM. L'ensemble de données et le code sont disponibles sur https://github.com/SALT-NLP/PrivacyLens.
English
As language models (LMs) are widely utilized in personalized communication
scenarios (e.g., sending emails, writing social media posts) and endowed with a
certain level of agency, ensuring they act in accordance with the contextual
privacy norms becomes increasingly critical. However, quantifying the privacy
norm awareness of LMs and the emerging privacy risk in LM-mediated
communication is challenging due to (1) the contextual and long-tailed nature
of privacy-sensitive cases, and (2) the lack of evaluation approaches that
capture realistic application scenarios. To address these challenges, we
propose PrivacyLens, a novel framework designed to extend privacy-sensitive
seeds into expressive vignettes and further into agent trajectories, enabling
multi-level evaluation of privacy leakage in LM agents' actions. We instantiate
PrivacyLens with a collection of privacy norms grounded in privacy literature
and crowdsourced seeds. Using this dataset, we reveal a discrepancy between LM
performance in answering probing questions and their actual behavior when
executing user instructions in an agent setup. State-of-the-art LMs, like GPT-4
and Llama-3-70B, leak sensitive information in 25.68% and 38.69% of cases, even
when prompted with privacy-enhancing instructions. We also demonstrate the
dynamic nature of PrivacyLens by extending each seed into multiple trajectories
to red-team LM privacy leakage risk. Dataset and code are available at
https://github.com/SALT-NLP/PrivacyLens.Summary
AI-Generated Summary