Modellazione di Interazioni Umane Distinte negli Agenti Web

Abstract

Nonostante i rapidi progressi negli agenti web autonomi, il coinvolgimento umano rimane essenziale per modellare le preferenze e correggere il comportamento degli agenti mentre i compiti si svolgono. Tuttavia, i sistemi agentistici attuali mancano di una comprensione principiata di quando e perché gli esseri umani intervengono, procedendo spesso in autonomia oltre punti decisionali critici o richiedendo conferme non necessarie. In questo lavoro, introduciamo il compito di modellare l'intervento umano per supportare l'esecuzione collaborativa di compiti web. Raccogliamo CowCorpus, un dataset di 400 traiettorie di navigazione web di utenti reali contenenti oltre 4.200 azioni intervallate di umani e agenti. Identifichiamo quattro distinti modelli di interazione dell'utente con gli agenti: supervisione a distanza, supervisione diretta, risoluzione collaborativa dei compiti e assunzione totale del controllo da parte dell'utente. Sfruttando queste intuizioni, addestriamo modelli linguistici (LM) a prevedere quando è probabile che gli utenti intervengano in base ai loro stili di interazione, ottenendo un miglioramento del 61,4-63,4% nell'accuratezza predittiva degli interventi rispetto ai LM base. Infine, implementiamo questi modelli consapevoli dell'intervento in agenti di navigazione web attivi e li valutiamo in uno studio con utenti, riscontrando un aumento del 26,5% nell'utilità dell'agente valutata dagli utenti. Nel complesso, i nostri risultati dimostrano che una modellazione strutturata dell'intervento umano porta ad agenti più adattivi e collaborativi.

English

Despite rapid progress in autonomous web agents, human involvement remains essential for shaping preferences and correcting agent behavior as tasks unfold. However, current agentic systems lack a principled understanding of when and why humans intervene, often proceeding autonomously past critical decision points or requesting unnecessary confirmation. In this work, we introduce the task of modeling human intervention to support collaborative web task execution. We collect CowCorpus, a dataset of 400 real-user web navigation trajectories containing over 4,200 interleaved human and agent actions. We identify four distinct patterns of user interaction with agents -- hands-off supervision, hands-on oversight, collaborative task-solving, and full user takeover. Leveraging these insights, we train language models (LMs) to anticipate when users are likely to intervene based on their interaction styles, yielding a 61.4-63.4% improvement in intervention prediction accuracy over base LMs. Finally, we deploy these intervention-aware models in live web navigation agents and evaluate them in a user study, finding a 26.5% increase in user-rated agent usefulness. Together, our results show structured modeling of human intervention leads to more adaptive, collaborative agents.

Modellazione di Interazioni Umane Distinte negli Agenti Web

Modeling Distinct Human Interaction in Web Agents

Abstract

Support