Conocidos por sus acciones: Huella digital de agentes de navegador LLM mediante rastros de interfaz de usuario

Resumen

A medida que los agentes basados en LLM navegan cada vez más por la web en nombre de los usuarios, surge una pregunta natural: ¿pueden los sitios web identificar pasivamente qué modelo subyacente impulsa a un agente? Hacerlo representaría un riesgo de seguridad significativo, al permitir ataques dirigidos adaptados a vulnerabilidades conocidas del modelo. En 14 LLM de frontera y cuatro entornos web que abarcan tareas de recuperación de información y compras, demostramos que las acciones de un agente y los tiempos de interacción, capturados mediante un rastreador JavaScript pasivo, son suficientes para identificar el modelo subyacente con un F1 de hasta el 96 %. Formalizamos esta superficie de ataque al demostrar que los clasificadores entrenados con las acciones de los agentes generalizan a través de tamaños y familias de modelos. Además, mostramos que se pueden entrenar clasificadores robustos a partir de pocas trazas de interacción y que la identidad del agente puede inferirse tempranamente dentro de un episodio. La inyección de retardos temporales aleatorios entre acciones degrada sustancialmente el rendimiento del clasificador, pero no proporciona una protección sólida: un clasificador reentrenado con trazas retardadas recupera en gran medida el rendimiento. Publicamos nuestro entorno de pruebas y un corpus etiquetado de trazas de agentes en https://github.com/KabakaWilliam/known_actions{here}.

English

As LLM-based agents increasingly browse the web on users' behalf, a natural question arises: can websites passively identify which underlying model powers an agent? Doing so would represent a significant security risk, enabling targeted attacks tailored to known model vulnerabilities. Across 14 frontier LLMs and four web environments spanning information retrieval and shopping tasks, we show that an agent's actions and interaction timings, captured via a passive JavaScript tracker, are sufficient to identify the underlying model with up to 96\% F1. We formalise this attack surface by demonstrating that classifiers trained on agent actions generalise across model sizes and families. We further show that strong classifiers can be trained from few interaction traces and that agent identity can be inferred early within an episode. Injecting randomised timing delays between actions substantially degrades classifier performance, but does not provide robust protection: a classifier retrained on delayed traces largely recovers performance. We release our harness and a labelled corpus of agent traces https://github.com/KabakaWilliam/known_actions{here}.