ChatPaper.aiChatPaper

PrivacyLens: Het evalueren van bewustzijn van privacy normen bij taalmodellen in actie

PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action

August 29, 2024
Auteurs: Yijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang
cs.AI

Samenvatting

Aangezien taalmodelen (LMs) veelvuldig worden ingezet in gepersonaliseerde communicatiescenario's (bijvoorbeeld het versturen van e-mails, het schrijven van sociale media posts) en worden uitgerust met een zekere mate van autonomie, wordt het steeds kritischer om ervoor te zorgen dat ze handelen in overeenstemming met de contextuele privacynormen. Het kwantificeren van het bewustzijn van privacynormen bij LMs en de opkomende privacyrisico's in LM-gemedieerde communicatie is echter uitdagend vanwege (1) de contextuele en langstaartige aard van privacygevoelige gevallen, en (2) het gebrek aan evaluatiemethoden die realistische toepassingsscenario's vastleggen. Om deze uitdagingen aan te pakken, stellen we PrivacyLens voor, een nieuw framework ontworpen om privacygevoelige zaden uit te breiden tot expressieve vignetten en vervolgens tot agenttrajecten, waardoor een meerlagige evaluatie van privacylekken in de acties van LM-agenten mogelijk wordt. We concretiseren PrivacyLens met een verzameling privacynormen gebaseerd op privacy-literatuur en door crowdsourcing verkregen zaden. Met behulp van deze dataset onthullen we een discrepantie tussen de prestaties van LMs bij het beantwoorden van verkennende vragen en hun daadwerkelijke gedrag bij het uitvoeren van gebruikersinstructies in een agentsetup. State-of-the-art LMs, zoals GPT-4 en Llama-3-70B, lekken gevoelige informatie in respectievelijk 25,68% en 38,69% van de gevallen, zelfs wanneer ze worden aangestuurd met privacyversterkende instructies. We tonen ook de dynamische aard van PrivacyLens aan door elk zaadje uit te breiden tot meerdere trajecten om het privacylekrisico van LMs te redteamen. Dataset en code zijn beschikbaar op https://github.com/SALT-NLP/PrivacyLens.
English
As language models (LMs) are widely utilized in personalized communication scenarios (e.g., sending emails, writing social media posts) and endowed with a certain level of agency, ensuring they act in accordance with the contextual privacy norms becomes increasingly critical. However, quantifying the privacy norm awareness of LMs and the emerging privacy risk in LM-mediated communication is challenging due to (1) the contextual and long-tailed nature of privacy-sensitive cases, and (2) the lack of evaluation approaches that capture realistic application scenarios. To address these challenges, we propose PrivacyLens, a novel framework designed to extend privacy-sensitive seeds into expressive vignettes and further into agent trajectories, enabling multi-level evaluation of privacy leakage in LM agents' actions. We instantiate PrivacyLens with a collection of privacy norms grounded in privacy literature and crowdsourced seeds. Using this dataset, we reveal a discrepancy between LM performance in answering probing questions and their actual behavior when executing user instructions in an agent setup. State-of-the-art LMs, like GPT-4 and Llama-3-70B, leak sensitive information in 25.68% and 38.69% of cases, even when prompted with privacy-enhancing instructions. We also demonstrate the dynamic nature of PrivacyLens by extending each seed into multiple trajectories to red-team LM privacy leakage risk. Dataset and code are available at https://github.com/SALT-NLP/PrivacyLens.

Summary

AI-Generated Summary

PDF12November 16, 2024