PrivacyLens: Het evalueren van bewustzijn van privacy normen bij taalmodellen in actie
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action
August 29, 2024
Auteurs: Yijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang
cs.AI
Samenvatting
Aangezien taalmodelen (LMs) veelvuldig worden ingezet in gepersonaliseerde communicatiescenario's (bijvoorbeeld het versturen van e-mails, het schrijven van sociale media posts) en worden uitgerust met een zekere mate van autonomie, wordt het steeds kritischer om ervoor te zorgen dat ze handelen in overeenstemming met de contextuele privacynormen. Het kwantificeren van het bewustzijn van privacynormen bij LMs en de opkomende privacyrisico's in LM-gemedieerde communicatie is echter uitdagend vanwege (1) de contextuele en langstaartige aard van privacygevoelige gevallen, en (2) het gebrek aan evaluatiemethoden die realistische toepassingsscenario's vastleggen. Om deze uitdagingen aan te pakken, stellen we PrivacyLens voor, een nieuw framework ontworpen om privacygevoelige zaden uit te breiden tot expressieve vignetten en vervolgens tot agenttrajecten, waardoor een meerlagige evaluatie van privacylekken in de acties van LM-agenten mogelijk wordt. We concretiseren PrivacyLens met een verzameling privacynormen gebaseerd op privacy-literatuur en door crowdsourcing verkregen zaden. Met behulp van deze dataset onthullen we een discrepantie tussen de prestaties van LMs bij het beantwoorden van verkennende vragen en hun daadwerkelijke gedrag bij het uitvoeren van gebruikersinstructies in een agentsetup. State-of-the-art LMs, zoals GPT-4 en Llama-3-70B, lekken gevoelige informatie in respectievelijk 25,68% en 38,69% van de gevallen, zelfs wanneer ze worden aangestuurd met privacyversterkende instructies. We tonen ook de dynamische aard van PrivacyLens aan door elk zaadje uit te breiden tot meerdere trajecten om het privacylekrisico van LMs te redteamen. Dataset en code zijn beschikbaar op https://github.com/SALT-NLP/PrivacyLens.
English
As language models (LMs) are widely utilized in personalized communication
scenarios (e.g., sending emails, writing social media posts) and endowed with a
certain level of agency, ensuring they act in accordance with the contextual
privacy norms becomes increasingly critical. However, quantifying the privacy
norm awareness of LMs and the emerging privacy risk in LM-mediated
communication is challenging due to (1) the contextual and long-tailed nature
of privacy-sensitive cases, and (2) the lack of evaluation approaches that
capture realistic application scenarios. To address these challenges, we
propose PrivacyLens, a novel framework designed to extend privacy-sensitive
seeds into expressive vignettes and further into agent trajectories, enabling
multi-level evaluation of privacy leakage in LM agents' actions. We instantiate
PrivacyLens with a collection of privacy norms grounded in privacy literature
and crowdsourced seeds. Using this dataset, we reveal a discrepancy between LM
performance in answering probing questions and their actual behavior when
executing user instructions in an agent setup. State-of-the-art LMs, like GPT-4
and Llama-3-70B, leak sensitive information in 25.68% and 38.69% of cases, even
when prompted with privacy-enhancing instructions. We also demonstrate the
dynamic nature of PrivacyLens by extending each seed into multiple trajectories
to red-team LM privacy leakage risk. Dataset and code are available at
https://github.com/SALT-NLP/PrivacyLens.Summary
AI-Generated Summary