FILTRACIÓN: Compartir en Exceso de Forma Agéntica en la Web

Resumen

Los agentes potenciados por LLM están comenzando a automatizar las tareas de los usuarios en la web abierta, a menudo con acceso a recursos del usuario como correos electrónicos y calendarios. A diferencia de los LLM estándar que responden preguntas en un entorno controlado de ChatBot, los agentes web actúan "en estado salvaje", interactuando con terceros y dejando tras de sí un rastro de acciones. Por lo tanto, nos planteamos la pregunta: ¿cómo manejan los agentes web los recursos del usuario cuando realizan tareas en su nombre a través de sitios web en vivo? En este artículo, formalizamos la Divulgación Excesiva Agéntica Natural (Natural Agentic Oversharing) – la revelación no intencionada de información del usuario irrelevante para la tarea a través de un rastro de acciones del agente en la web. Introducimos SPILLage, un marco que caracteriza la divulgación excesiva a lo largo de dos dimensiones: canal (contenido vs. comportamiento) y directitud (explícita vs. implícita). Esta taxonomía revela un punto ciego crítico: mientras que trabajos previos se centran en la filtración de texto, los agentes web también divulgan en exceso de manera conductual a través de clics, desplazamientos y patrones de navegación que pueden ser monitoreados. Evaluamos 180 tareas en sitios de comercio electrónico en vivo con anotaciones de verdad fundamental que separan los atributos relevantes para la tarea de los irrelevantes. A través de 1.080 ejecuciones que abarcan dos marcos agenticos y tres LLMs base, demostramos que la divulgación excesiva es generalizada, y la divulgación excesiva conductual domina a la de contenido por un factor de 5x. Este efecto persiste – e incluso puede empeorar – bajo mitigación a nivel de prompt. Sin embargo, eliminar la información irrelevante para la tarea antes de la ejecución mejora el éxito de la tarea hasta en un 17.9%, lo que demuestra que reducir la divulgación excesiva mejora el éxito de la tarea. Nuestros hallazgos subrayan que proteger la privacidad en los agentes web es un desafío fundamental, que requiere una visión más amplia de la "salida" que tenga en cuenta lo que los agentes hacen en la web, no solo lo que escriben. Nuestros conjuntos de datos y código están disponibles en https://github.com/jrohsc/SPILLage.

English

LLM-powered agents are beginning to automate user's tasks across the open web, often with access to user resources such as emails and calendars. Unlike standard LLMs answering questions in a controlled ChatBot setting, web agents act "in the wild", interacting with third parties and leaving behind an action trace. Therefore, we ask the question: how do web agents handle user resources when accomplishing tasks on their behalf across live websites? In this paper, we formalize Natural Agentic Oversharing -- the unintentional disclosure of task-irrelevant user information through an agent trace of actions on the web. We introduce SPILLage, a framework that characterizes oversharing along two dimensions: channel (content vs. behavior) and directness (explicit vs. implicit). This taxonomy reveals a critical blind spot: while prior work focuses on text leakage, web agents also overshare behaviorally through clicks, scrolls, and navigation patterns that can be monitored. We benchmark 180 tasks on live e-commerce sites with ground-truth annotations separating task-relevant from task-irrelevant attributes. Across 1,080 runs spanning two agentic frameworks and three backbone LLMs, we demonstrate that oversharing is pervasive with behavioral oversharing dominates content oversharing by 5x. This effect persists -- and can even worsen -- under prompt-level mitigation. However, removing task-irrelevant information before execution improves task success by up to 17.9%, demonstrating that reducing oversharing improves task success. Our findings underscore that protecting privacy in web agents is a fundamental challenge, requiring a broader view of "output" that accounts for what agents do on the web, not just what they type. Our datasets and code are available at https://github.com/jrohsc/SPILLage.