Modelagem de Interação Humana Distinta em Agentes Web

Resumo

Apesar dos rápidos avanços nos agentes web autónomos, o envolvimento humano continua a ser essencial para moldar preferências e corrigir o comportamento dos agentes à medida que as tarefas se desenrolam. No entanto, os sistemas agentes atuais carecem de uma compreensão fundamentada sobre quando e por que os humanos intervêm, prosseguindo frequentemente de forma autónoma além de pontos de decisão críticos ou solicitando confirmações desnecessárias. Neste trabalho, introduzimos a tarefa de modelar a intervenção humana para apoiar a execução colaborativa de tarefas web. Recolhemos o CowCorpus, um conjunto de dados com 400 trajetórias de navegação web de utilizadores reais, contendo mais de 4.200 ações intercaladas de humanos e agentes. Identificamos quatro padrões distintos de interação do utilizador com os agentes: supervisão passiva, supervisão ativa, resolução colaborativa de tarefas e assumir total controlo. Aproveitando estas perceções, treinamos modelos de linguagem (LM) para prever quando os utilizadores são propensos a intervir com base nos seus estilos de interação, obtendo uma melhoria de 61,4-63,4% na precisão da previsão de intervenção em relação aos LM base. Por fim, implementamos estes modelos conscientes da intervenção em agentes de navegação web ativos e avaliamo-los num estudo com utilizadores, registando um aumento de 26,5% na utilidade do agente classificada pelo utilizador. Em conjunto, os nossos resultados mostram que a modelação estruturada da intervenção humana conduz a agentes mais adaptativos e colaborativos.

English

Despite rapid progress in autonomous web agents, human involvement remains essential for shaping preferences and correcting agent behavior as tasks unfold. However, current agentic systems lack a principled understanding of when and why humans intervene, often proceeding autonomously past critical decision points or requesting unnecessary confirmation. In this work, we introduce the task of modeling human intervention to support collaborative web task execution. We collect CowCorpus, a dataset of 400 real-user web navigation trajectories containing over 4,200 interleaved human and agent actions. We identify four distinct patterns of user interaction with agents -- hands-off supervision, hands-on oversight, collaborative task-solving, and full user takeover. Leveraging these insights, we train language models (LMs) to anticipate when users are likely to intervene based on their interaction styles, yielding a 61.4-63.4% improvement in intervention prediction accuracy over base LMs. Finally, we deploy these intervention-aware models in live web navigation agents and evaluate them in a user study, finding a 26.5% increase in user-rated agent usefulness. Together, our results show structured modeling of human intervention leads to more adaptive, collaborative agents.

Modelagem de Interação Humana Distinta em Agentes Web

Modeling Distinct Human Interaction in Web Agents

Resumo

Support