PrivacyLens: Evaluierung des Datenschutznormbewusstseins von Sprachmodellen in Aktion
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action
August 29, 2024
Autoren: Yijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang
cs.AI
Zusammenfassung
Da Sprachmodelle (LMs) weit verbreitet in personalisierten Kommunikationsszenarien (z. B. Versenden von E-Mails, Verfassen von Beiträgen in sozialen Medien) eingesetzt werden und über ein gewisses Maß an Autonomie verfügen, wird es zunehmend kritisch, sicherzustellen, dass sie gemäß den kontextbezogenen Datenschutznormen handeln. Die Quantifizierung des Datenschutzbewusstseins von LMs und des aufkommenden Datenschutzrisikos in LM-vermittelter Kommunikation ist jedoch aufgrund (1) der kontextuellen und langschwänzigen Natur von datenschutzrelevanten Fällen und (2) des Mangels an Bewertungsansätzen, die realistische Anwendungsszenarien erfassen, eine Herausforderung. Um diesen Herausforderungen zu begegnen, schlagen wir PrivacyLens vor, ein neuartiges Framework, das entwickelt wurde, um datenschutzsensible Ausgangspunkte in ausdrucksstarke Szenen und weiter in Agentenverläufe zu erweitern, um eine mehrstufige Bewertung von Datenschutzlecks in den Handlungen von LM-Agenten zu ermöglichen. Wir konkretisieren PrivacyLens mit einer Sammlung von in der Datenschutzliteratur verankerten Datenschutznormen und crowdsourceten Ausgangspunkten. Unter Verwendung dieses Datensatzes zeigen wir eine Diskrepanz zwischen der Leistung von LMs bei der Beantwortung von Sondierungsfragen und ihrem tatsächlichen Verhalten bei der Ausführung von Benutzeranweisungen in einem Agenten-Setup auf. State-of-the-Art LMs wie GPT-4 und Llama-3-70B geben in 25,68 % bzw. 38,69 % der Fälle sensible Informationen preis, selbst wenn sie mit datenschutzverbessernden Anweisungen konfrontiert werden. Wir zeigen auch die dynamische Natur von PrivacyLens, indem wir jeden Ausgangspunkt in mehrere Verläufe erweitern, um das Datenschutzrisiko von LMs zu überprüfen. Der Datensatz und der Code sind verfügbar unter https://github.com/SALT-NLP/PrivacyLens.
English
As language models (LMs) are widely utilized in personalized communication
scenarios (e.g., sending emails, writing social media posts) and endowed with a
certain level of agency, ensuring they act in accordance with the contextual
privacy norms becomes increasingly critical. However, quantifying the privacy
norm awareness of LMs and the emerging privacy risk in LM-mediated
communication is challenging due to (1) the contextual and long-tailed nature
of privacy-sensitive cases, and (2) the lack of evaluation approaches that
capture realistic application scenarios. To address these challenges, we
propose PrivacyLens, a novel framework designed to extend privacy-sensitive
seeds into expressive vignettes and further into agent trajectories, enabling
multi-level evaluation of privacy leakage in LM agents' actions. We instantiate
PrivacyLens with a collection of privacy norms grounded in privacy literature
and crowdsourced seeds. Using this dataset, we reveal a discrepancy between LM
performance in answering probing questions and their actual behavior when
executing user instructions in an agent setup. State-of-the-art LMs, like GPT-4
and Llama-3-70B, leak sensitive information in 25.68% and 38.69% of cases, even
when prompted with privacy-enhancing instructions. We also demonstrate the
dynamic nature of PrivacyLens by extending each seed into multiple trajectories
to red-team LM privacy leakage risk. Dataset and code are available at
https://github.com/SALT-NLP/PrivacyLens.Summary
AI-Generated Summary