CowPilot: Um Framework para Navegação Web Autônoma e Colaborativa entre Humanos e Agentes.
CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation
January 28, 2025
Autores: Faria Huq, Zora Zhiruo Wang, Frank F. Xu, Tianyue Ou, Shuyan Zhou, Jeffrey P. Bigham, Graham Neubig
cs.AI
Resumo
Embora grande parte do trabalho em agentes web enfatize a promessa de realizar tarefas autonomamente em nome dos usuários, na realidade, os agentes muitas vezes falham em tarefas complexas em contextos do mundo real e na modelagem das preferências do usuário. Isso cria uma oportunidade para os humanos colaborarem com o agente e aproveitarem efetivamente as capacidades do agente. Propomos o CowPilot, um framework que suporta a navegação web autônoma, bem como a colaboração entre humanos e agentes, e a avaliação do sucesso e eficiência das tarefas. O CowPilot reduz o número de etapas que os humanos precisam realizar, permitindo que os agentes proponham os próximos passos, enquanto os usuários podem pausar, rejeitar ou tomar ações alternativas. Durante a execução, os usuários podem intercalar suas ações com as do agente, substituindo sugestões ou retomando o controle do agente quando necessário. Realizamos estudos de caso em cinco sites comuns e descobrimos que o modo colaborativo entre humanos e agentes alcança a maior taxa de sucesso, de 95%, exigindo que os humanos realizem apenas 15,2% do total de etapas. Mesmo com intervenções humanas durante a execução da tarefa, o agente consegue conduzir com sucesso até metade do sucesso da tarefa por conta própria. O CowPilot pode servir como uma ferramenta útil para coleta de dados e avaliação de agentes em sites, o que acreditamos que possibilitará pesquisas sobre como usuários e agentes podem trabalhar juntos. Demonstrativos em vídeo estão disponíveis em https://oaishi.github.io/cowpilot.html
English
While much work on web agents emphasizes the promise of autonomously
performing tasks on behalf of users, in reality, agents often fall short on
complex tasks in real-world contexts and modeling user preference. This
presents an opportunity for humans to collaborate with the agent and leverage
the agent's capabilities effectively. We propose CowPilot, a framework
supporting autonomous as well as human-agent collaborative web navigation, and
evaluation across task success and task efficiency. CowPilot reduces the number
of steps humans need to perform by allowing agents to propose next steps, while
users are able to pause, reject, or take alternative actions. During execution,
users can interleave their actions with the agent by overriding suggestions or
resuming agent control when needed. We conducted case studies on five common
websites and found that the human-agent collaborative mode achieves the highest
success rate of 95% while requiring humans to perform only 15.2% of the total
steps. Even with human interventions during task execution, the agent
successfully drives up to half of task success on its own. CowPilot can serve
as a useful tool for data collection and agent evaluation across websites,
which we believe will enable research in how users and agents can work
together. Video demonstrations are available at
https://oaishi.github.io/cowpilot.htmlSummary
AI-Generated Summary