ChatPaper.aiChatPaper

PrivacyLens: Valutazione della consapevolezza delle norme sulla privacy dei modelli linguistici in azione

PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action

August 29, 2024
Autori: Yijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang
cs.AI

Abstract

Poiché i modelli linguistici (LM) sono ampiamente utilizzati in scenari di comunicazione personalizzata (ad esempio, invio di email, scrittura di post sui social media) e dotati di un certo livello di autonomia, garantire che agiscano in conformità con le norme di privacy contestuali diventa sempre più critico. Tuttavia, quantificare la consapevolezza delle norme sulla privacy dei LM e il rischio emergente per la privacy nella comunicazione mediata dai LM è sfidante a causa (1) della natura contestuale e a lunga coda dei casi sensibili alla privacy e (2) della mancanza di approcci di valutazione che catturino scenari di applicazione realistici. Per affrontare queste sfide, proponiamo PrivacyLens, un nuovo framework progettato per estendere semi sensibili alla privacy in vignette espressive e successivamente in traiettorie degli agenti, consentendo una valutazione a più livelli delle falle nella privacy nelle azioni degli agenti LM. Istanziamo PrivacyLens con una raccolta di norme sulla privacy basate sulla letteratura sulla privacy e semi ottenuti tramite crowd-sourcing. Utilizzando questo dataset, riveliamo una discrepanza tra le prestazioni dei LM nel rispondere a domande di indagine e il loro effettivo comportamento nell'eseguire istruzioni dell'utente in un ambiente di agente. I LM all'avanguardia, come GPT-4 e Llama-3-70B, rilasciano informazioni sensibili nel 25,68% e nel 38,69% dei casi, anche quando sollecitati con istruzioni che migliorano la privacy. Dimostriamo anche la natura dinamica di PrivacyLens estendendo ciascun seme in molteplici traiettorie per valutare il rischio di fuga della privacy dei LM. Il dataset e il codice sono disponibili su https://github.com/SALT-NLP/PrivacyLens.
English
As language models (LMs) are widely utilized in personalized communication scenarios (e.g., sending emails, writing social media posts) and endowed with a certain level of agency, ensuring they act in accordance with the contextual privacy norms becomes increasingly critical. However, quantifying the privacy norm awareness of LMs and the emerging privacy risk in LM-mediated communication is challenging due to (1) the contextual and long-tailed nature of privacy-sensitive cases, and (2) the lack of evaluation approaches that capture realistic application scenarios. To address these challenges, we propose PrivacyLens, a novel framework designed to extend privacy-sensitive seeds into expressive vignettes and further into agent trajectories, enabling multi-level evaluation of privacy leakage in LM agents' actions. We instantiate PrivacyLens with a collection of privacy norms grounded in privacy literature and crowdsourced seeds. Using this dataset, we reveal a discrepancy between LM performance in answering probing questions and their actual behavior when executing user instructions in an agent setup. State-of-the-art LMs, like GPT-4 and Llama-3-70B, leak sensitive information in 25.68% and 38.69% of cases, even when prompted with privacy-enhancing instructions. We also demonstrate the dynamic nature of PrivacyLens by extending each seed into multiple trajectories to red-team LM privacy leakage risk. Dataset and code are available at https://github.com/SALT-NLP/PrivacyLens.
PDF12November 16, 2024