ChatPaper.aiChatPaper

エージェントのためのウェブを構築せよ、ウェブのためのエージェントではない。

Build the web for agents, not agents for the web

June 12, 2025
著者: Xing Han Lù, Gaurav Kamath, Marius Mosbach, Siva Reddy
cs.AI

要旨

大規模言語モデル(LLMs)およびマルチモーダル対応モデルの最近の進展は、ウェブ環境内で自律的にナビゲートしタスクを完了するAIシステムであるウェブエージェントの開発に大きな関心を呼び起こしている。複雑なウェブインタラクションの自動化において非常に有望である一方で、現在のアプローチは、人間向けに設計されたインターフェースとLLMの能力との根本的なミスマッチにより、大きな課題に直面している。現在の手法は、大規模なDOMツリーの処理、追加情報を付加したスクリーンショットへの依存、あるいはAPIインタラクションを通じてユーザーインターフェースを完全に回避するといった、ウェブ入力の本質的な複雑さに対処するのに苦戦している。本ポジションペーパーは、ウェブエージェント研究におけるパラダイムシフトを提唱する:人間向けに設計されたインターフェースにウェブエージェントを適応させるのではなく、エージェントの能力に最適化された新しいインタラクションパラダイムを開発すべきである。この目的のために、エージェントがウェブサイトをナビゲートするために特別に設計されたインターフェースである「エージェンティック・ウェブ・インターフェース(AWI)」の概念を導入する。我々は、安全性、効率性、標準化を重視したAWI設計のための6つの指針を確立し、すべての主要なステークホルダーの利益を考慮する。この再構築は、既存のインターフェースの根本的な限界を克服し、より効率的で信頼性が高く透明性のあるウェブエージェント設計への道を開くことを目指しており、これは広範なMLコミュニティが協力して取り組むべき課題である。
English
Recent advancements in Large Language Models (LLMs) and multimodal counterparts have spurred significant interest in developing web agents -- AI systems capable of autonomously navigating and completing tasks within web environments. While holding tremendous promise for automating complex web interactions, current approaches face substantial challenges due to the fundamental mismatch between human-designed interfaces and LLM capabilities. Current methods struggle with the inherent complexity of web inputs, whether processing massive DOM trees, relying on screenshots augmented with additional information, or bypassing the user interface entirely through API interactions. This position paper advocates for a paradigm shift in web agent research: rather than forcing web agents to adapt to interfaces designed for humans, we should develop a new interaction paradigm specifically optimized for agentic capabilities. To this end, we introduce the concept of an Agentic Web Interface (AWI), an interface specifically designed for agents to navigate a website. We establish six guiding principles for AWI design, emphasizing safety, efficiency, and standardization, to account for the interests of all primary stakeholders. This reframing aims to overcome fundamental limitations of existing interfaces, paving the way for more efficient, reliable, and transparent web agent design, which will be a collaborative effort involving the broader ML community.
PDF122June 13, 2025