Modellering van Onderscheidende Menselijke Interactie in Webagenten

Samenvatting

Ondanks snelle vooruitgang in autonome webagentschappen blijft menselijke betrokkenheid essentieel voor het vormgeven van voorkeuren en het corrigeren van agentgedrag naarmate taken vorderen. Huidige agentische systemen ontberen echter een principieel begrip van wanneer en waarom mensen ingrijpen, waarbij ze vaak autonoom door kritieke beslissingspunten heen gaan of onnodige bevestiging vragen. In dit werk introduceren we de taak van het modelleren van menselijke interventie ter ondersteuning van collaboratieve webtaakuitvoering. We verzamelen CowCorpus, een dataset van 400 webnavigatietrajecten van echte gebruikers met meer dan 4.200 verweven menselijke en agentacties. We identificeren vier verschillende patronen van gebruikersinteractie met agentschappen: handen-af-toezicht, handen-aan-toezicht, collaboratieve taakoplossing en volledige gebruikersovername. Gebruikmakend van deze inzichten trainen we taalmodelen (LM's) om te anticiperen op wanneer gebruikers waarschijnlijk zullen ingrijpen op basis van hun interactiestijlen, wat een verbetering van 61,4-63,4% oplevert in de nauwkeurigheid van interventievoorspelling ten opzichte van basistaalmodelen. Ten slotte implementeren we deze interventiebewuste modellen in live webnavigatieagentschappen en evalueren we ze in een gebruikersstudie, waarbij we een stijging van 26,5% vaststellen in de door gebruikers beoordeelde bruikbaarheid van de agent. Samen tonen onze resultaten aan dat gestructureerde modellering van menselijke interventie leidt tot meer adaptieve, collaboratieve agentschappen.

English

Despite rapid progress in autonomous web agents, human involvement remains essential for shaping preferences and correcting agent behavior as tasks unfold. However, current agentic systems lack a principled understanding of when and why humans intervene, often proceeding autonomously past critical decision points or requesting unnecessary confirmation. In this work, we introduce the task of modeling human intervention to support collaborative web task execution. We collect CowCorpus, a dataset of 400 real-user web navigation trajectories containing over 4,200 interleaved human and agent actions. We identify four distinct patterns of user interaction with agents -- hands-off supervision, hands-on oversight, collaborative task-solving, and full user takeover. Leveraging these insights, we train language models (LMs) to anticipate when users are likely to intervene based on their interaction styles, yielding a 61.4-63.4% improvement in intervention prediction accuracy over base LMs. Finally, we deploy these intervention-aware models in live web navigation agents and evaluate them in a user study, finding a 26.5% increase in user-rated agent usefulness. Together, our results show structured modeling of human intervention leads to more adaptive, collaborative agents.

Modellering van Onderscheidende Menselijke Interactie in Webagenten

Modeling Distinct Human Interaction in Web Agents

Samenvatting

Support