Reconnus à leurs actions : fingerprinting des agents navigateurs LLM via les traces UI

Résumé

Alors que les agents basés sur des LLM naviguent de plus en plus sur le web pour le compte des utilisateurs, une question naturelle se pose : les sites web peuvent-ils identifier passivement le modèle sous-jacent qui anime un agent ? Une telle capacité représenterait un risque de sécurité majeur, permettant des attaques ciblées adaptées aux vulnérabilités connues des modèles. À travers 14 LLM de pointe et quatre environnements web couvrant des tâches de recherche d'information et d'achat, nous montrons que les actions d'un agent et les temps d'interaction, capturés via un traceur JavaScript passif, suffisent à identifier le modèle sous-jacent avec un F1 allant jusqu'à 96 %. Nous formalisons cette surface d'attaque en démontrant que les classifieurs entraînés sur les actions des agents généralisent à travers les tailles et les familles de modèles. Nous montrons en outre que des classifieurs robustes peuvent être entraînés à partir de quelques traces d'interaction et que l'identité de l'agent peut être inférée tôt dans un épisode. L'injection de délais aléatoires entre les actions dégrade considérablement les performances du classifieur, mais n'offre pas une protection robuste : un classifieur réentraîné sur des traces retardées récupère largement ses performances. Nous publions notre harnais et un corpus étiqueté de traces d'agents à l'adresse https://github.com/KabakaWilliam/known_actions{ici}.

English

As LLM-based agents increasingly browse the web on users' behalf, a natural question arises: can websites passively identify which underlying model powers an agent? Doing so would represent a significant security risk, enabling targeted attacks tailored to known model vulnerabilities. Across 14 frontier LLMs and four web environments spanning information retrieval and shopping tasks, we show that an agent's actions and interaction timings, captured via a passive JavaScript tracker, are sufficient to identify the underlying model with up to 96\% F1. We formalise this attack surface by demonstrating that classifiers trained on agent actions generalise across model sizes and families. We further show that strong classifiers can be trained from few interaction traces and that agent identity can be inferred early within an episode. Injecting randomised timing delays between actions substantially degrades classifier performance, but does not provide robust protection: a classifier retrained on delayed traces largely recovers performance. We release our harness and a labelled corpus of agent traces https://github.com/KabakaWilliam/known_actions{here}.