PrivacyLens: Оценка осведомленности моделей языка о нормах конфиденциальности в действии
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action
August 29, 2024
Авторы: Yijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang
cs.AI
Аннотация
Поскольку языковые модели (LM) широко используются в сценариях персонализированного общения (например, отправка электронных писем, написание сообщений в социальных сетях) и обладают определенным уровнем агентности, обеспечение их действий в соответствии с контекстуальными нормами конфиденциальности становится все более важным. Однако оценка осведомленности LM о нормах конфиденциальности и возникающего риска конфиденциальности в коммуникации через LM является сложной из-за (1) контекстуальной и длиннохвостой природы случаев, требующих конфиденциальности, и (2) отсутствия подходов к оценке, учитывающих реалистичные сценарии применения. Для решения этих проблем мы предлагаем PrivacyLens, новую концепцию, разработанную для расширения конфиденциальных семян в выразительные виньетки и дальнейшего превращения их в траектории агентов, обеспечивая многоуровневую оценку утечки конфиденциальной информации в действиях агентов LM. Мы реализуем PrivacyLens с помощью набора норм конфиденциальности, основанных на литературе по конфиденциальности и семенах, собранных при помощи массового участия. Используя этот набор данных, мы выявляем расхождение между производительностью LM в ответах на провокационные вопросы и их фактическим поведением при выполнении инструкций пользователя в агентской среде. Современные LM, такие как GPT-4 и Llama-3-70B, утекают конфиденциальную информацию в 25,68% и 38,69% случаев, даже при запросе конфиденциальности улучшающих инструкций. Мы также демонстрируем динамическую природу PrivacyLens, расширяя каждое семя в несколько траекторий для оценки риска утечки конфиденциальности LM. Набор данных и код доступны по ссылке https://github.com/SALT-NLP/PrivacyLens.
English
As language models (LMs) are widely utilized in personalized communication
scenarios (e.g., sending emails, writing social media posts) and endowed with a
certain level of agency, ensuring they act in accordance with the contextual
privacy norms becomes increasingly critical. However, quantifying the privacy
norm awareness of LMs and the emerging privacy risk in LM-mediated
communication is challenging due to (1) the contextual and long-tailed nature
of privacy-sensitive cases, and (2) the lack of evaluation approaches that
capture realistic application scenarios. To address these challenges, we
propose PrivacyLens, a novel framework designed to extend privacy-sensitive
seeds into expressive vignettes and further into agent trajectories, enabling
multi-level evaluation of privacy leakage in LM agents' actions. We instantiate
PrivacyLens with a collection of privacy norms grounded in privacy literature
and crowdsourced seeds. Using this dataset, we reveal a discrepancy between LM
performance in answering probing questions and their actual behavior when
executing user instructions in an agent setup. State-of-the-art LMs, like GPT-4
and Llama-3-70B, leak sensitive information in 25.68% and 38.69% of cases, even
when prompted with privacy-enhancing instructions. We also demonstrate the
dynamic nature of PrivacyLens by extending each seed into multiple trajectories
to red-team LM privacy leakage risk. Dataset and code are available at
https://github.com/SALT-NLP/PrivacyLens.Summary
AI-Generated Summary