Conhecidos por Suas Ações: Impressão Digital de Agentes de Navegador de LLM por meio de Rastros de IU

Resumo

À medida que agentes baseados em LLM navegam cada vez mais na web em nome dos usuários, surge uma pergunta natural: os sites podem identificar passivamente qual modelo subjacente alimenta um agente? Fazer isso representaria um risco de segurança significativo, possibilitando ataques direcionados adaptados a vulnerabilidades conhecidas do modelo. Em 14 LLMs de ponta e quatro ambientes web abrangendo tarefas de recuperação de informações e compras, mostramos que as ações de um agente e os tempos de interação, capturados por um rastreador JavaScript passivo, são suficientes para identificar o modelo subjacente com até 96% de F1. Formalizamos essa superfície de ataque demonstrando que classificadores treinados em ações de agentes generalizam entre tamanhos e famílias de modelos. Mostramos ainda que classificadores robustos podem ser treinados a partir de poucos traços de interação e que a identidade do agente pode ser inferida logo no início de um episódio. Injetar atrasos temporais aleatórios entre ações degrada substancialmente o desempenho do classificador, mas não oferece proteção robusta: um classificador retreinado com traços atrasados recupera em grande parte o desempenho. Disponibilizamos nosso harness e um corpus rotulado de traços de agentes em https://github.com/KabakaWilliam/known_actions{here}.

English

As LLM-based agents increasingly browse the web on users' behalf, a natural question arises: can websites passively identify which underlying model powers an agent? Doing so would represent a significant security risk, enabling targeted attacks tailored to known model vulnerabilities. Across 14 frontier LLMs and four web environments spanning information retrieval and shopping tasks, we show that an agent's actions and interaction timings, captured via a passive JavaScript tracker, are sufficient to identify the underlying model with up to 96\% F1. We formalise this attack surface by demonstrating that classifiers trained on agent actions generalise across model sizes and families. We further show that strong classifiers can be trained from few interaction traces and that agent identity can be inferred early within an episode. Injecting randomised timing delays between actions substantially degrades classifier performance, but does not provide robust protection: a classifier retrained on delayed traces largely recovers performance. We release our harness and a labelled corpus of agent traces https://github.com/KabakaWilliam/known_actions{here}.