ウェブエージェントにおける個別的な人間の相互作用のモデリング
Modeling Distinct Human Interaction in Web Agents
February 19, 2026
著者: Faria Huq, Zora Zhiruo Wang, Zhanqiu Guo, Venu Arvind Arangarajan, Tianyue Ou, Frank Xu, Shuyan Zhou, Graham Neubig, Jeffrey P. Bigham
cs.AI
要旨
自律的なWebエージェントの急速な進歩にもかかわらず、タスクの進行に伴う選好の形成やエージェント行動の修正には、依然として人間の関与が不可欠である。しかし、現在のエージェントシステムは、人間がいつ、なぜ介入するかについて原理的な理解を欠いており、重要な意思決定点を自律的に通過してしまったり、不必要な確認を要求したりすることが多い。本研究では、協調的なWebタスク実行を支援するための人間の介入のモデル化タスクを提案する。我々は、4,200以上の人間とエージェントの行動が交互に記録された、実ユーザーによる400件のWebナビゲーション軌跡データセット「CowCorpus」を収集した。我々は、ユーザーとエージェントの相互作用に4つの異なるパターン――ハンズオフな監督、ハンズオンな監視、協調的なタスク解決、完全なユーザー引き継ぎ――を特定した。これらの知見を活用し、言語モデルを、ユーザーの相互作用スタイルに基づいて介入が発生しそうなタイミングを予測するように学習させた結果、ベースラインの言語モデルと比較して介入予測精度が61.4-63.4%向上した。最後に、これらの介入を意識したモデルを実際のWebナビゲーションエージェントに組み込み、ユーザー調査で評価したところ、ユーザー評価によるエージェントの有用性が26.5%向上した。以上の結果は、人間の介入を構造的にモデル化することが、より適応的で協調的なエージェントの実現につながることを示している。
English
Despite rapid progress in autonomous web agents, human involvement remains essential for shaping preferences and correcting agent behavior as tasks unfold. However, current agentic systems lack a principled understanding of when and why humans intervene, often proceeding autonomously past critical decision points or requesting unnecessary confirmation. In this work, we introduce the task of modeling human intervention to support collaborative web task execution. We collect CowCorpus, a dataset of 400 real-user web navigation trajectories containing over 4,200 interleaved human and agent actions. We identify four distinct patterns of user interaction with agents -- hands-off supervision, hands-on oversight, collaborative task-solving, and full user takeover. Leveraging these insights, we train language models (LMs) to anticipate when users are likely to intervene based on their interaction styles, yielding a 61.4-63.4% improvement in intervention prediction accuracy over base LMs. Finally, we deploy these intervention-aware models in live web navigation agents and evaluate them in a user study, finding a 26.5% increase in user-rated agent usefulness. Together, our results show structured modeling of human intervention leads to more adaptive, collaborative agents.