Het operationaliseren van contextuele integriteit in privacybewuste assistenten
Operationalizing Contextual Integrity in Privacy-Conscious Assistants
August 5, 2024
Auteurs: Sahra Ghalebikesabi, Eugene Bagdasaryan, Ren Yi, Itay Yona, Ilia Shumailov, Aneesh Pappu, Chongyang Shi, Laura Weidinger, Robert Stanforth, Leonard Berrada, Pushmeet Kohli, Po-Sen Huang, Borja Balle
cs.AI
Samenvatting
Geavanceerde AI-assistenten combineren state-of-the-art grote taalmodellen (LLMs) en toegang tot tools om autonoom complexe taken uit te voeren namens gebruikers. Hoewel de nuttigheid van dergelijke assistenten aanzienlijk kan toenemen met toegang tot gebruikersinformatie, zoals e-mails en documenten, roept dit privacyzorgen op over het delen van ongepaste informatie met derden zonder toezicht van de gebruiker. Om informatie-delende assistenten te sturen om zich te gedragen in overeenstemming met privacyverwachtingen, stellen we voor om contextuele integriteit (CI) te operationaliseren, een raamwerk dat privacy gelijkstelt aan de juiste doorstroming van informatie in een bepaalde context. In het bijzonder ontwerpen en evalueren we een aantal strategieën om de informatie-delende acties van assistenten CI-conform te maken. Onze evaluatie is gebaseerd op een nieuwe benchmark voor het invullen van formulieren, samengesteld uit synthetische data en menselijke annotaties, en toont aan dat het aanzetten van state-of-the-art LLMs tot CI-gebaseerd redeneren sterke resultaten oplevert.
English
Advanced AI assistants combine frontier LLMs and tool access to autonomously
perform complex tasks on behalf of users. While the helpfulness of such
assistants can increase dramatically with access to user information including
emails and documents, this raises privacy concerns about assistants sharing
inappropriate information with third parties without user supervision. To steer
information-sharing assistants to behave in accordance with privacy
expectations, we propose to operationalize contextual integrity
(CI), a framework that equates privacy with the appropriate flow of information
in a given context. In particular, we design and evaluate a number of
strategies to steer assistants' information-sharing actions to be CI compliant.
Our evaluation is based on a novel form filling benchmark composed of synthetic
data and human annotations, and it reveals that prompting frontier LLMs to
perform CI-based reasoning yields strong results.