Bekend door hun handelingen: Vingerafdrukken van LLM-browseragenten via UI-sporen

Samenvatting

Naarmate op LLM gebaseerde agenten steeds vaker het web namens gebruikers doorzoeken, rijst een natuurlijke vraag: kunnen websites passief identificeren welk onderliggend model een agent aandrijft? Dit zou een aanzienlijk beveiligingsrisico vormen, omdat het gerichte aanvallen mogelijk maakt die zijn afgestemd op bekende modelkwetsbaarheden. Bij 14 vooraanstaande LLM's en vier webomgevingen die variëren van informatieopvraging tot winkeltaken, tonen we aan dat de acties van een agent en de tijdsinteracties, vastgelegd via een passieve JavaScript-tracker, voldoende zijn om het onderliggende model te identificeren met een F1-score tot 96%. We formaliseren dit aanvalsoppervlak door aan te tonen dat classifiers die zijn getraind op agentacties, generaliseren over modelgroottes en -families. Verder tonen we aan dat sterke classifiers kunnen worden getraind met weinig interactiesporen en dat de identiteit van de agent vroeg in een episode kan worden afgeleid. Het injecteren van willekeurige tijdsvertragingen tussen acties degradeert de classifierprestaties aanzienlijk, maar biedt geen robuuste bescherming: een classifier die opnieuw is getraind op vertraagde sporen herstelt grotendeels de prestaties. We maken ons harnas en een gelabeld corpus van agentsporen openbaar via https://github.com/KabakaWilliam/known_actions{here}.

English

As LLM-based agents increasingly browse the web on users' behalf, a natural question arises: can websites passively identify which underlying model powers an agent? Doing so would represent a significant security risk, enabling targeted attacks tailored to known model vulnerabilities. Across 14 frontier LLMs and four web environments spanning information retrieval and shopping tasks, we show that an agent's actions and interaction timings, captured via a passive JavaScript tracker, are sufficient to identify the underlying model with up to 96\% F1. We formalise this attack surface by demonstrating that classifiers trained on agent actions generalise across model sizes and families. We further show that strong classifiers can be trained from few interaction traces and that agent identity can be inferred early within an episode. Injecting randomised timing delays between actions substantially degrades classifier performance, but does not provide robust protection: a classifier retrained on delayed traces largely recovers performance. We release our harness and a labelled corpus of agent traces https://github.com/KabakaWilliam/known_actions{here}.