PrivacyAlign: Contextuele Privacy-afstemming voor LLM-agenten

Samenvatting

AI-agenten die namens gebruikers handelen, nemen voortdurend beslissingen. Om ervoor te zorgen dat gebruikers hun agenten vertrouwen, moeten deze beslissingen overeenkomen met wat gebruikers werkelijk willen. Privacy is een belangrijk afstemmingsprobleem voor agenten: elk bericht, elke post of tool-aanroep die een agent doet, is een contextueel oordeel over wat gepast is om te delen, met wie, en onder welke omstandigheden. Omdat dergelijke oordelen afhangen van sociale verwachtingen en normen, labelt een menselijk oordeel niet alleen privacyschendingen, maar helpt het ook om ze te definiëren. Terwijl bestaand werk vertrouwt op onbetrouwbare proxy's voor zowel training als evaluatie, plaatsen wij het menselijk oordeel centraal in de privacyafstemming van agenten. We introduceren PrivacyAlign, een dataset van 1.350 samples met 3.516 gedetailleerde annotaties van 599 unieke annotators in diverse scenario's waarin huidige LLM's daadwerkelijk lekken, en gebruiken deze om zowel afstemmingstraining als geautomatiseerde evaluatie te baseren op menselijke privacynormen. Voortbouwend op deze annotaties laten we eerst zien dat het conditioneren van LLM-beoordelaars op menselijke annotaties en uitleg voor referentie-antwoorden op dezelfde prompt hun oordelen betrouwbaarder maakt. Vervolgens introduceren we annotatie-geconditioneerde beloningsmodellering, die deze annotaties gebruikt om nieuwe antwoorden te scoren tijdens RL, en tonen aan dat kleine open-gewicht agenten die met deze beloning worden getraind beter aansluiten bij menselijke privacynormen, met sterke verbeteringen op PrivacyAlign en bestaande privacymaatstaven voor agenten.

English

AI agents acting on behalf of users are constantly making decisions, and for users to trust their agents, those decisions must align with what they actually want. Privacy is an important alignment problem for agents: every message, post, or tool call an agent makes is a contextual judgment about what is appropriate to share, with whom, and under which conditions. Because such judgments depend on social expectations and norms, human judgment does not merely label privacy violations but also helps define them. While existing work relies on unreliable proxies for both training and evaluation, we place human judgment at the center of agentic privacy alignment. We introduce PrivacyAlign, a dataset of 1,350 samples with 3,516 detailed annotations from 599 unique annotators across diverse scenarios where current LLMs actually leak, and use it to ground both alignment training and automated evaluation in human privacy norms. Building on these annotations, we first show that conditioning LLM judges on human annotations and explanations for reference responses to the same prompt makes their judgments more reliable. We then introduce annotation-conditioned reward modeling, which uses these annotations to score new responses during RL, and show that small open-weight agents trained with this reward better align with human privacy norms, with strong gains on PrivacyAlign and existing privacy benchmarks for agents.