CowPilot: Un Framework per la Navigazione Web Autonoma e Collaborativa tra Umani e Agenti

Abstract

Mentre gran parte del lavoro sugli agenti web sottolinea la promessa di svolgere autonomamente compiti per conto degli utenti, nella realtà gli agenti spesso non riescono a completare compiti complessi in contesti reali e a modellare le preferenze degli utenti. Questo offre un'opportunità per gli esseri umani di collaborare con l'agente e sfruttare efficacemente le sue capacità. Proponiamo CowPilot, un framework che supporta la navigazione web autonoma e collaborativa tra umani e agenti, con valutazioni basate sul successo e sull'efficienza dei compiti. CowPilot riduce il numero di passaggi che gli umani devono compiere consentendo agli agenti di proporre i passaggi successivi, mentre gli utenti possono mettere in pausa, rifiutare o intraprendere azioni alternative. Durante l'esecuzione, gli utenti possono alternare le proprie azioni con quelle dell'agente sovrascrivendo le suggerimenti o riprendendo il controllo dell'agente quando necessario. Abbiamo condotto studi di caso su cinque siti web comuni e abbiamo scoperto che la modalità collaborativa umano-agente raggiunge il tasso di successo più alto, pari al 95%, richiedendo agli umani di completare solo il 15,2% dei passaggi totali. Anche con interventi umani durante l'esecuzione del compito, l'agente guida con successo fino alla metà del completamento del compito da solo. CowPilot può essere uno strumento utile per la raccolta di dati e la valutazione degli agenti su diversi siti web, il che riteniamo favorirà la ricerca su come utenti e agenti possano collaborare. Dimostrazioni video sono disponibili su https://oaishi.github.io/cowpilot.html

English

While much work on web agents emphasizes the promise of autonomously performing tasks on behalf of users, in reality, agents often fall short on complex tasks in real-world contexts and modeling user preference. This presents an opportunity for humans to collaborate with the agent and leverage the agent's capabilities effectively. We propose CowPilot, a framework supporting autonomous as well as human-agent collaborative web navigation, and evaluation across task success and task efficiency. CowPilot reduces the number of steps humans need to perform by allowing agents to propose next steps, while users are able to pause, reject, or take alternative actions. During execution, users can interleave their actions with the agent by overriding suggestions or resuming agent control when needed. We conducted case studies on five common websites and found that the human-agent collaborative mode achieves the highest success rate of 95% while requiring humans to perform only 15.2% of the total steps. Even with human interventions during task execution, the agent successfully drives up to half of task success on its own. CowPilot can serve as a useful tool for data collection and agent evaluation across websites, which we believe will enable research in how users and agents can work together. Video demonstrations are available at https://oaishi.github.io/cowpilot.html

CowPilot: Un Framework per la Navigazione Web Autonoma e Collaborativa tra Umani e Agenti

CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation

Abstract

Support