CowPilot: Ein Rahmenwerk für autonome und kollaborative Web-Navigation zwischen Menschen und Agenten.
CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation
January 28, 2025
Autoren: Faria Huq, Zora Zhiruo Wang, Frank F. Xu, Tianyue Ou, Shuyan Zhou, Jeffrey P. Bigham, Graham Neubig
cs.AI
Zusammenfassung
Während viele Arbeiten zu Webagenten den Schwerpunkt auf die Möglichkeit legen, autonom Aufgaben im Auftrag von Benutzern auszuführen, fallen Agenten in der Realität oft bei komplexen Aufgaben in realen Kontexten und der Modellierung von Benutzerpräferenzen kurz. Dies bietet eine Gelegenheit für Menschen, mit dem Agenten zusammenzuarbeiten und die Fähigkeiten des Agenten effektiv zu nutzen. Wir schlagen CowPilot vor, ein Framework, das die autonome sowie die kollaborative Webnavigation zwischen Mensch und Agent unterstützt und anhand von Aufgabenerfolg und Aufgabeeffizienz bewertet. CowPilot reduziert die Anzahl der Schritte, die Menschen ausführen müssen, indem Agenten nächste Schritte vorschlagen können, während Benutzer pausieren, ablehnen oder alternative Aktionen ausführen können. Während der Ausführung können Benutzer ihre Aktionen mit dem Agenten verweben, indem sie Vorschläge außer Kraft setzen oder die Agentensteuerung bei Bedarf wieder aufnehmen. Wir führten Fallstudien auf fünf gängigen Websites durch und stellten fest, dass der kollaborative Modus zwischen Mensch und Agent die höchste Erfolgsquote von 95% erreicht, wobei Menschen nur 15,2% der Gesamtschritte ausführen müssen. Selbst bei menschlichen Eingriffen während der Aufgabenausführung treibt der Agent erfolgreich bis zu der Hälfte des Aufgabenerfolgs allein voran. CowPilot kann als nützliches Werkzeug für die Datensammlung und die Agentenbewertung über Websites hinweg dienen, was unserer Meinung nach die Erforschung der Zusammenarbeit von Benutzern und Agenten ermöglichen wird. Video-Demonstrationen sind verfügbar unter https://oaishi.github.io/cowpilot.html.
English
While much work on web agents emphasizes the promise of autonomously
performing tasks on behalf of users, in reality, agents often fall short on
complex tasks in real-world contexts and modeling user preference. This
presents an opportunity for humans to collaborate with the agent and leverage
the agent's capabilities effectively. We propose CowPilot, a framework
supporting autonomous as well as human-agent collaborative web navigation, and
evaluation across task success and task efficiency. CowPilot reduces the number
of steps humans need to perform by allowing agents to propose next steps, while
users are able to pause, reject, or take alternative actions. During execution,
users can interleave their actions with the agent by overriding suggestions or
resuming agent control when needed. We conducted case studies on five common
websites and found that the human-agent collaborative mode achieves the highest
success rate of 95% while requiring humans to perform only 15.2% of the total
steps. Even with human interventions during task execution, the agent
successfully drives up to half of task success on its own. CowPilot can serve
as a useful tool for data collection and agent evaluation across websites,
which we believe will enable research in how users and agents can work
together. Video demonstrations are available at
https://oaishi.github.io/cowpilot.htmlSummary
AI-Generated Summary