PrivacyLens: Evaluando la Conciencia de Normas de Privacidad de Modelos de Lenguaje en Acción
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action
August 29, 2024
Autores: Yijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang
cs.AI
Resumen
Dado que los modelos de lenguaje (LMs) se utilizan ampliamente en escenarios de comunicación personalizada (por ejemplo, enviar correos electrónicos, escribir publicaciones en redes sociales) y están dotados de cierto nivel de agencia, garantizar que actúen de acuerdo con las normas de privacidad contextual se vuelve cada vez más crítico. Sin embargo, cuantificar la conciencia de las normas de privacidad de los LMs y el riesgo de privacidad emergente en la comunicación mediada por LM es un desafío debido a (1) la naturaleza contextual y de larga cola de los casos sensibles a la privacidad, y (2) la falta de enfoques de evaluación que capturen escenarios de aplicación realistas. Para abordar estos desafíos, proponemos PrivacyLens, un marco novedoso diseñado para extender semillas sensibles a la privacidad en viñetas expresivas y luego en trayectorias de agentes, lo que permite la evaluación multinivel de la fuga de privacidad en las acciones de agentes de LM. Implementamos PrivacyLens con una colección de normas de privacidad fundamentadas en la literatura de privacidad y semillas obtenidas mediante crowdsourcing. Utilizando este conjunto de datos, revelamos una discrepancia entre el rendimiento de los LM al responder preguntas de sondeo y su comportamiento real al ejecutar instrucciones de usuario en una configuración de agente. Los LMs de última generación, como GPT-4 y Llama-3-70B, filtran información sensible en un 25.68% y un 38.69% de los casos, incluso cuando se les solicita con instrucciones que mejoran la privacidad. También demostramos la naturaleza dinámica de PrivacyLens al extender cada semilla en múltiples trayectorias para evaluar el riesgo de fuga de privacidad de LM. El conjunto de datos y el código están disponibles en https://github.com/SALT-NLP/PrivacyLens.
English
As language models (LMs) are widely utilized in personalized communication
scenarios (e.g., sending emails, writing social media posts) and endowed with a
certain level of agency, ensuring they act in accordance with the contextual
privacy norms becomes increasingly critical. However, quantifying the privacy
norm awareness of LMs and the emerging privacy risk in LM-mediated
communication is challenging due to (1) the contextual and long-tailed nature
of privacy-sensitive cases, and (2) the lack of evaluation approaches that
capture realistic application scenarios. To address these challenges, we
propose PrivacyLens, a novel framework designed to extend privacy-sensitive
seeds into expressive vignettes and further into agent trajectories, enabling
multi-level evaluation of privacy leakage in LM agents' actions. We instantiate
PrivacyLens with a collection of privacy norms grounded in privacy literature
and crowdsourced seeds. Using this dataset, we reveal a discrepancy between LM
performance in answering probing questions and their actual behavior when
executing user instructions in an agent setup. State-of-the-art LMs, like GPT-4
and Llama-3-70B, leak sensitive information in 25.68% and 38.69% of cases, even
when prompted with privacy-enhancing instructions. We also demonstrate the
dynamic nature of PrivacyLens by extending each seed into multiple trajectories
to red-team LM privacy leakage risk. Dataset and code are available at
https://github.com/SALT-NLP/PrivacyLens.Summary
AI-Generated Summary