PrivacyLens:言語モデルのプライバシー規範意識の評価行動
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action
August 29, 2024
著者: Yijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang
cs.AI
要旨
言語モデル(LM)は、個人向けコミュニケーションシナリオ(例:メールの送信、ソーシャルメディア投稿の作成)で広く利用されており、ある程度の機構を持っているため、コンテキストに応じたプライバシー規範に従うことがますます重要になっています。しかし、LMのプライバシー規範への認識とLMを介したコミュニケーションにおける新興のプライバシーリスクを定量化することは、プライバシーに敏感なケースの文脈依存性と長尾性、および現実的なアプリケーションシナリオを捉える評価手法の欠如により困難です。これらの課題に対処するために、私たちはPrivacyLensという新しいフレームワークを提案します。このフレームワークは、プライバシーに敏感なシードを表現豊かな短編小説に拡張し、さらにエージェントの軌跡にまで拡張することで、LMエージェントの行動におけるプライバシーリークの多レベル評価を可能にします。私たちは、プライバシー文献に根ざしたプライバシー規範とクラウドソーシングされたシードを使用してPrivacyLensを具体化します。このデータセットを使用して、探求的な質問に回答する際のLMのパフォーマンスと、エージェント設定でユーザーの指示を実行する際の実際の行動との間に乖離があることを明らかにします。GPT-4やLlama-3-70Bなどの最先端のLMは、プライバシー強化の指示を受けても、25.68%および38.69%のケースで機密情報を漏洩させます。また、各シードを複数の軌跡に拡張して、LMのプライバシーリークリスクを赤チームで示すことで、PrivacyLensの動的性質を示します。データセットとコードはhttps://github.com/SALT-NLP/PrivacyLens で入手可能です。
English
As language models (LMs) are widely utilized in personalized communication
scenarios (e.g., sending emails, writing social media posts) and endowed with a
certain level of agency, ensuring they act in accordance with the contextual
privacy norms becomes increasingly critical. However, quantifying the privacy
norm awareness of LMs and the emerging privacy risk in LM-mediated
communication is challenging due to (1) the contextual and long-tailed nature
of privacy-sensitive cases, and (2) the lack of evaluation approaches that
capture realistic application scenarios. To address these challenges, we
propose PrivacyLens, a novel framework designed to extend privacy-sensitive
seeds into expressive vignettes and further into agent trajectories, enabling
multi-level evaluation of privacy leakage in LM agents' actions. We instantiate
PrivacyLens with a collection of privacy norms grounded in privacy literature
and crowdsourced seeds. Using this dataset, we reveal a discrepancy between LM
performance in answering probing questions and their actual behavior when
executing user instructions in an agent setup. State-of-the-art LMs, like GPT-4
and Llama-3-70B, leak sensitive information in 25.68% and 38.69% of cases, even
when prompted with privacy-enhancing instructions. We also demonstrate the
dynamic nature of PrivacyLens by extending each seed into multiple trajectories
to red-team LM privacy leakage risk. Dataset and code are available at
https://github.com/SALT-NLP/PrivacyLens.Summary
AI-Generated Summary