PrivacyLens : Évaluation de la conscience des normes de confidentialité des modèles de langage en action

Résumé

Étant donné que les modèles de langage (LM) sont largement utilisés dans des scénarios de communication personnalisée (par exemple, l'envoi d'e-mails, la rédaction de publications sur les réseaux sociaux) et dotés d'un certain niveau d'agence, il est de plus en plus crucial de veiller à ce qu'ils agissent conformément aux normes de confidentialité contextuelles. Cependant, quantifier la sensibilisation des LM aux normes de confidentialité et le risque émergent pour la confidentialité dans la communication médiatisée par les LM est difficile en raison (1) de la nature contextuelle et à longue traîne des cas sensibles à la confidentialité, et (2) du manque d'approches d'évaluation qui captent des scénarios d'application réalistes. Pour relever ces défis, nous proposons PrivacyLens, un nouveau cadre conçu pour étendre des graines sensibles à la confidentialité en vignettes expressives, puis en trajectoires d'agents, permettant une évaluation multi-niveaux des fuites de confidentialité dans les actions des agents LM. Nous instancions PrivacyLens avec une collection de normes de confidentialité ancrées dans la littérature sur la confidentialité et des graines obtenues auprès du public. En utilisant cet ensemble de données, nous révélons une disparité entre les performances des LM pour répondre à des questions d'investigation et leur comportement réel lors de l'exécution d'instructions utilisateur dans un environnement d'agent. Les LM de pointe, tels que GPT-4 et Llama-3-70B, divulguent des informations sensibles dans 25,68 % et 38,69 % des cas, même lorsqu'ils sont sollicités avec des instructions renforçant la confidentialité. Nous démontrons également la nature dynamique de PrivacyLens en étendant chaque graine en plusieurs trajectoires pour évaluer le risque de fuite de confidentialité des LM. L'ensemble de données et le code sont disponibles sur https://github.com/SALT-NLP/PrivacyLens.

English

As language models (LMs) are widely utilized in personalized communication scenarios (e.g., sending emails, writing social media posts) and endowed with a certain level of agency, ensuring they act in accordance with the contextual privacy norms becomes increasingly critical. However, quantifying the privacy norm awareness of LMs and the emerging privacy risk in LM-mediated communication is challenging due to (1) the contextual and long-tailed nature of privacy-sensitive cases, and (2) the lack of evaluation approaches that capture realistic application scenarios. To address these challenges, we propose PrivacyLens, a novel framework designed to extend privacy-sensitive seeds into expressive vignettes and further into agent trajectories, enabling multi-level evaluation of privacy leakage in LM agents' actions. We instantiate PrivacyLens with a collection of privacy norms grounded in privacy literature and crowdsourced seeds. Using this dataset, we reveal a discrepancy between LM performance in answering probing questions and their actual behavior when executing user instructions in an agent setup. State-of-the-art LMs, like GPT-4 and Llama-3-70B, leak sensitive information in 25.68% and 38.69% of cases, even when prompted with privacy-enhancing instructions. We also demonstrate the dynamic nature of PrivacyLens by extending each seed into multiple trajectories to red-team LM privacy leakage risk. Dataset and code are available at https://github.com/SALT-NLP/PrivacyLens.

PrivacyLens : Évaluation de la conscience des normes de confidentialité des modèles de langage en action

PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action

Résumé

Support