CowPilot : Un cadre pour la navigation web autonome et collaborative entre humains et agents.
CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation
January 28, 2025
Auteurs: Faria Huq, Zora Zhiruo Wang, Frank F. Xu, Tianyue Ou, Shuyan Zhou, Jeffrey P. Bigham, Graham Neubig
cs.AI
Résumé
Alors que de nombreux travaux sur les agents web mettent en avant la promesse d'accomplir des tâches de manière autonome au nom des utilisateurs, en réalité, les agents peinent souvent sur des tâches complexes dans des contextes du monde réel et pour modéliser les préférences des utilisateurs. Cela offre une opportunité aux humains de collaborer avec l'agent et de tirer parti efficacement des capacités de l'agent. Nous proposons CowPilot, un cadre soutenant la navigation web autonome ainsi que la collaboration entre humains et agents, avec une évaluation basée sur le succès des tâches et leur efficacité. CowPilot réduit le nombre d'étapes que les humains doivent effectuer en permettant aux agents de proposer les prochaines étapes, tandis que les utilisateurs peuvent mettre en pause, rejeter ou prendre des actions alternatives. Pendant l'exécution, les utilisateurs peuvent entrelacer leurs actions avec celles de l'agent en annulant les suggestions ou en reprenant le contrôle de l'agent lorsque nécessaire. Nous avons mené des études de cas sur cinq sites web courants et constaté que le mode collaboratif humain-agent atteint le taux de réussite le plus élevé de 95 % tout en demandant aux humains d'effectuer seulement 15,2 % des étapes totales. Même avec des interventions humaines pendant l'exécution des tâches, l'agent parvient avec succès à réaliser jusqu'à la moitié du succès des tâches par lui-même. CowPilot peut servir d'outil utile pour la collecte de données et l'évaluation des agents à travers les sites web, ce qui, selon nous, favorisera la recherche sur la manière dont les utilisateurs et les agents peuvent collaborer. Des démonstrations vidéo sont disponibles sur https://oaishi.github.io/cowpilot.html
English
While much work on web agents emphasizes the promise of autonomously
performing tasks on behalf of users, in reality, agents often fall short on
complex tasks in real-world contexts and modeling user preference. This
presents an opportunity for humans to collaborate with the agent and leverage
the agent's capabilities effectively. We propose CowPilot, a framework
supporting autonomous as well as human-agent collaborative web navigation, and
evaluation across task success and task efficiency. CowPilot reduces the number
of steps humans need to perform by allowing agents to propose next steps, while
users are able to pause, reject, or take alternative actions. During execution,
users can interleave their actions with the agent by overriding suggestions or
resuming agent control when needed. We conducted case studies on five common
websites and found that the human-agent collaborative mode achieves the highest
success rate of 95% while requiring humans to perform only 15.2% of the total
steps. Even with human interventions during task execution, the agent
successfully drives up to half of task success on its own. CowPilot can serve
as a useful tool for data collection and agent evaluation across websites,
which we believe will enable research in how users and agents can work
together. Video demonstrations are available at
https://oaishi.github.io/cowpilot.htmlSummary
AI-Generated Summary