Моделирование уникального человеческого взаимодействия в веб-агентах
Modeling Distinct Human Interaction in Web Agents
February 19, 2026
Авторы: Faria Huq, Zora Zhiruo Wang, Zhanqiu Guo, Venu Arvind Arangarajan, Tianyue Ou, Frank Xu, Shuyan Zhou, Graham Neubig, Jeffrey P. Bigham
cs.AI
Аннотация
Несмотря на быстрый прогресс в области автономных веб-агентов, участие человека остается необходимым для формирования предпочтений и корректировки поведения агента по мере выполнения задач. Однако современные агентские системы не имеют принципиального понимания того, когда и почему люди вмешиваются, часто продолжая работу автономно после критических точек принятия решений или запрашивая ненужные подтверждения. В данной работе мы представляем задачу моделирования человеческого вмешательства для поддержки совместного выполнения веб-задач. Мы собираем CowCorpus — набор данных из 400 траекторий веб-навигации реальных пользователей, содержащий более 4200 чередующихся действий человека и агента. Мы выявляем четыре различных паттерна взаимодействия пользователей с агентами: дистанционный контроль, непосредственный надзор, совместное решение задач и полное принятие управления пользователем. Используя эти данные, мы обучаем языковые модели (ЯМ) прогнозировать, когда пользователи с высокой вероятностью вмешаются, на основе их стилей взаимодействия, что позволило добиться улучшения точности прогнозирования вмешательств на 61,4–63,4% по сравнению с базовыми ЯМ. Наконец, мы внедряем эти модели, учитывающие возможность вмешательства, в действующие агенты веб-навигации и оцениваем их в пользовательском исследовании, фиксируя увеличение оцененной пользователями полезности агента на 26,5%. В совокупности наши результаты демонстрируют, что структурированное моделирование человеческого вмешательства приводит к созданию более адаптивных и коллаборативных агентов.
English
Despite rapid progress in autonomous web agents, human involvement remains essential for shaping preferences and correcting agent behavior as tasks unfold. However, current agentic systems lack a principled understanding of when and why humans intervene, often proceeding autonomously past critical decision points or requesting unnecessary confirmation. In this work, we introduce the task of modeling human intervention to support collaborative web task execution. We collect CowCorpus, a dataset of 400 real-user web navigation trajectories containing over 4,200 interleaved human and agent actions. We identify four distinct patterns of user interaction with agents -- hands-off supervision, hands-on oversight, collaborative task-solving, and full user takeover. Leveraging these insights, we train language models (LMs) to anticipate when users are likely to intervene based on their interaction styles, yielding a 61.4-63.4% improvement in intervention prediction accuracy over base LMs. Finally, we deploy these intervention-aware models in live web navigation agents and evaluate them in a user study, finding a 26.5% increase in user-rated agent usefulness. Together, our results show structured modeling of human intervention leads to more adaptive, collaborative agents.