Известны по своим действиям: Идентификация LLM браузерных агентов через UI-следы

Аннотация

По мере того как агенты на основе больших языковых моделей (LLM) всё чаще выполняют просмотр веб-страниц от имени пользователей, возникает естественный вопрос: могут ли веб-сайты пассивно определять, какая базовая модель управляет агентом? Это представляло бы собой значительный риск для безопасности, позволяя проводить целевые атаки, адаптированные под известные уязвимости модели. На примере 14 передовых LLM и четырёх веб-сред, охватывающих задачи поиска информации и совершения покупок, мы показываем, что действия агента и временны́е интервалы между ними, фиксируемые с помощью пассивного JavaScript-трекера, достаточны для идентификации базовой модели с F1-мерой до 96%. Мы формализуем эту поверхность атаки, демонстрируя, что классификаторы, обученные на последовательностях действий агента, обобщаются на различные размеры и семейства моделей. Далее мы показываем, что надёжные классификаторы могут быть обучены на небольшом количестве следов взаимодействий, а идентичность агента может быть определена на ранних этапах эпизода. Внесение случайных временны́х задержек между действиями существенно снижает производительность классификатора, но не обеспечивает надёжной защиты: классификатор, переобученный на задержанных следах, в значительной степени восстанавливает свою производительность. Мы публикуем наш набор инструментов и размеченный корпус следов работы агентов по адресу https://github.com/KabakaWilliam/known_actions{here}.

English

As LLM-based agents increasingly browse the web on users' behalf, a natural question arises: can websites passively identify which underlying model powers an agent? Doing so would represent a significant security risk, enabling targeted attacks tailored to known model vulnerabilities. Across 14 frontier LLMs and four web environments spanning information retrieval and shopping tasks, we show that an agent's actions and interaction timings, captured via a passive JavaScript tracker, are sufficient to identify the underlying model with up to 96\% F1. We formalise this attack surface by demonstrating that classifiers trained on agent actions generalise across model sizes and families. We further show that strong classifiers can be trained from few interaction traces and that agent identity can be inferred early within an episode. Injecting randomised timing delays between actions substantially degrades classifier performance, but does not provide robust protection: a classifier retrained on delayed traces largely recovers performance. We release our harness and a labelled corpus of agent traces https://github.com/KabakaWilliam/known_actions{here}.