Erkannt an ihren Handlungen: Fingerprinting von LLM-Browser-Agenten anhand von UI-Spuren

Zusammenfassung

Wenn LLM-basierte Agenten zunehmend im Auftrag von Nutzern im Web surfen, stellt sich eine natürliche Frage: Können Websites passiv erkennen, welches zugrundeliegende Modell einen Agenten antreibt? Dies würde ein erhebliches Sicherheitsrisiko darstellen und gezielte Angriffe ermöglichen, die auf bekannte Modellschwachstellen zugeschnitten sind. Anhand von 14 führenden LLMs und vier Webumgebungen, die Aufgaben zur Informationssuche und zum Einkaufen umfassen, zeigen wir, dass die Aktionen eines Agenten und deren Interaktionszeiten, die über einen passiven JavaScript-Tracker erfasst werden, ausreichen, um das zugrundeliegende Modell mit einem F1-Wert von bis zu 96 % zu identifizieren. Wir formalisieren diese Angriffsfläche, indem wir demonstrieren, dass auf Agentenaktionen trainierte Klassifikatoren über Modellgrößen und -familien hinweg generalisieren. Wir zeigen ferner, dass aus wenigen Interaktionsspuren leistungsstarke Klassifikatoren trainiert werden können und dass die Agentenidentität früh innerhalb einer Episode abgeleitet werden kann. Das Einfügen zufälliger Zeitverzögerungen zwischen Aktionen verschlechtert die Klassifikatorleistung erheblich, bietet jedoch keinen robusten Schutz: Ein auf den verzögerten Spuren neu trainierter Klassifikator gewinnt die Leistungsfähigkeit weitgehend zurück. Wir veröffentlichen unsere Testumgebung und einen annotierten Korpus von Agentenspuren unter https://github.com/KabakaWilliam/known_actions{here}.

English

As LLM-based agents increasingly browse the web on users' behalf, a natural question arises: can websites passively identify which underlying model powers an agent? Doing so would represent a significant security risk, enabling targeted attacks tailored to known model vulnerabilities. Across 14 frontier LLMs and four web environments spanning information retrieval and shopping tasks, we show that an agent's actions and interaction timings, captured via a passive JavaScript tracker, are sufficient to identify the underlying model with up to 96\% F1. We formalise this attack surface by demonstrating that classifiers trained on agent actions generalise across model sizes and families. We further show that strong classifiers can be trained from few interaction traces and that agent identity can be inferred early within an episode. Injecting randomised timing delays between actions substantially degrades classifier performance, but does not provide robust protection: a classifier retrained on delayed traces largely recovers performance. We release our harness and a labelled corpus of agent traces https://github.com/KabakaWilliam/known_actions{here}.