УТЕЧКА: Агентное избыточное раскрытие информации в сети

Аннотация

Агенты на основе больших языковых моделей (LLM) начинают автоматизировать задачи пользователей в открытой сети, часто имея доступ к таким пользовательским ресурсам, как электронная почта и календари. В отличие от стандартных LLM, отвечающих на вопросы в контролируемой среде чат-бота, веб-агенты действуют «в диких условиях», взаимодействуя с третьими сторонами и оставляя после себя след действий. Поэтому мы задаемся вопросом: как веб-агенты обрабатывают пользовательские ресурсы при выполнении задач от их имени на реальных веб-сайтах? В данной статье мы формализуем концепцию Естественного Агентского Избыточного Раскрытия (Natural Agentic Oversharing) — непреднамеренного разглашения информации о пользователе, не относящейся к задаче, через след действий агента в сети. Мы представляем SPILLage — фреймворк, который характеризует избыточное раскрытие по двум измерениям: канал (контент vs. поведение) и прямота (явное vs. неявное). Эта таксономия выявляет критическое слепое пятно: в то время как предыдущие работы сосредоточены на утечке текста, веб-агенты также избыточно раскрывают информацию поведенчески через клики, прокрутки и паттерны навигации, которые можно отслеживать. Мы проводим тестирование 180 задач на реальных сайтах электронной коммерции с размеченными эталонными данными, разделяющими атрибуты, релевантные и нерелевантные задаче. На основе 1080 запусков, охватывающих два агентских фреймворка и три базовые LLM, мы демонстрируем, что избыточное раскрытие является повсеместным, причем поведенческое раскрытие преобладает над контентным в 5 раз. Этот эффект сохраняется — и может даже усугубляться — при попытках смягчения на уровне промптов. Однако удаление информации, не относящейся к задаче, перед выполнением повышает успешность задачи до 17.9%, что демонстрирует, что сокращение избыточного раскрытия улучшает результаты. Наши выводы подчеркивают, что защита конфиденциальности в веб-агентах является фундаментальной проблемой, требующей более широкого взгляда на «выходные данные», который учитывает то, что агенты делают в сети, а не только то, что они печатают. Наши наборы данных и код доступны по адресу https://github.com/jrohsc/SPILLage.

English

LLM-powered agents are beginning to automate user's tasks across the open web, often with access to user resources such as emails and calendars. Unlike standard LLMs answering questions in a controlled ChatBot setting, web agents act "in the wild", interacting with third parties and leaving behind an action trace. Therefore, we ask the question: how do web agents handle user resources when accomplishing tasks on their behalf across live websites? In this paper, we formalize Natural Agentic Oversharing -- the unintentional disclosure of task-irrelevant user information through an agent trace of actions on the web. We introduce SPILLage, a framework that characterizes oversharing along two dimensions: channel (content vs. behavior) and directness (explicit vs. implicit). This taxonomy reveals a critical blind spot: while prior work focuses on text leakage, web agents also overshare behaviorally through clicks, scrolls, and navigation patterns that can be monitored. We benchmark 180 tasks on live e-commerce sites with ground-truth annotations separating task-relevant from task-irrelevant attributes. Across 1,080 runs spanning two agentic frameworks and three backbone LLMs, we demonstrate that oversharing is pervasive with behavioral oversharing dominates content oversharing by 5x. This effect persists -- and can even worsen -- under prompt-level mitigation. However, removing task-irrelevant information before execution improves task success by up to 17.9%, demonstrating that reducing oversharing improves task success. Our findings underscore that protecting privacy in web agents is a fundamental challenge, requiring a broader view of "output" that accounts for what agents do on the web, not just what they type. Our datasets and code are available at https://github.com/jrohsc/SPILLage.

УТЕЧКА: Агентное избыточное раскрытие информации в сети

SPILLage: Agentic Oversharing on the Web

Аннотация

Support