PrivacyAlign: Контекстное согласование приватности для агентов LLM

Аннотация

ИИ-агенты, действующие от имени пользователей, постоянно принимают решения, и для того, чтобы пользователи доверяли своим агентам, эти решения должны соответствовать их реальным желаниям. Конфиденциальность является важной проблемой согласования (alignment) для агентов: каждое сообщение, пост или вызов инструмента, совершаемый агентом, представляет собой контекстуальное суждение о том, что уместно раскрывать, кому и при каких условиях. Поскольку такие суждения зависят от социальных ожиданий и норм, человеческие суждения не только маркируют нарушения конфиденциальности, но и помогают их определить. В то время как существующие работы полагаются на ненадёжные прокси-меры как для обучения, так и для оценки, мы ставим человеческие суждения в центр согласования конфиденциальности агентов. Мы представляем PrivacyAlign — набор данных из 1 350 примеров с 3 516 детальными аннотациями от 599 уникальных аннотаторов в различных сценариях, где современные LLM действительно допускают утечки, и используем его для обоснования как обучения согласованию, так и автоматизированной оценки на основе человеческих норм конфиденциальности. Основываясь на этих аннотациях, мы сначала показываем, что обусловливание LLM-оценщиков на человеческие аннотации и пояснения для эталонных ответов на тот же запрос делает их суждения более надёжными. Затем мы вводим моделирование вознаграждения, обусловленное аннотациями, которое использует эти аннотации для оценки новых ответов в ходе обучения с подкреплением (RL), и демонстрируем, что небольшие агенты с открытыми весами, обученные с таким вознаграждением, лучше согласуются с человеческими нормами конфиденциальности, показывая значительные улучшения на PrivacyAlign и существующих бенчмарках конфиденциальности для агентов.

English

AI agents acting on behalf of users are constantly making decisions, and for users to trust their agents, those decisions must align with what they actually want. Privacy is an important alignment problem for agents: every message, post, or tool call an agent makes is a contextual judgment about what is appropriate to share, with whom, and under which conditions. Because such judgments depend on social expectations and norms, human judgment does not merely label privacy violations but also helps define them. While existing work relies on unreliable proxies for both training and evaluation, we place human judgment at the center of agentic privacy alignment. We introduce PrivacyAlign, a dataset of 1,350 samples with 3,516 detailed annotations from 599 unique annotators across diverse scenarios where current LLMs actually leak, and use it to ground both alignment training and automated evaluation in human privacy norms. Building on these annotations, we first show that conditioning LLM judges on human annotations and explanations for reference responses to the same prompt makes their judgments more reliable. We then introduce annotation-conditioned reward modeling, which uses these annotations to score new responses during RL, and show that small open-weight agents trained with this reward better align with human privacy norms, with strong gains on PrivacyAlign and existing privacy benchmarks for agents.