Baue das Web für Agenten, nicht Agenten für das Web.

papers.abstract

Jüngste Fortschritte bei Large Language Models (LLMs) und ihren multimodalen Gegenstücken haben ein erhebliches Interesse an der Entwicklung von Web-Agenten geweckt – KI-Systemen, die in der Lage sind, autonom in Webumgebungen zu navigieren und Aufgaben zu erledigen. Obwohl sie ein enormes Potenzial für die Automatisierung komplexer Webinteraktionen bieten, stehen aktuelle Ansätze vor erheblichen Herausforderungen aufgrund der grundlegenden Diskrepanz zwischen menschengestalteten Schnittstellen und den Fähigkeiten von LLMs. Aktuelle Methoden kämpfen mit der inhärenten Komplexität von Web-Eingaben, sei es bei der Verarbeitung umfangreicher DOM-Bäume, der Nutzung von Screenshots, die mit zusätzlichen Informationen angereichert sind, oder dem vollständigen Umgehen der Benutzeroberfläche durch API-Interaktionen. Dieses Positionspapier plädiert für einen Paradigmenwechsel in der Forschung zu Web-Agenten: Anstatt Web-Agenten an Schnittstellen anzupassen, die für Menschen entwickelt wurden, sollten wir ein neues Interaktionsparadigma schaffen, das speziell für agentische Fähigkeiten optimiert ist. Zu diesem Zweck führen wir das Konzept einer Agentic Web Interface (AWI) ein, einer Schnittstelle, die speziell für die Navigation von Agenten auf einer Website entwickelt wurde. Wir legen sechs Leitprinzipien für das AWI-Design fest, die Sicherheit, Effizienz und Standardisierung betonen, um die Interessen aller primären Stakeholder zu berücksichtigen. Diese Neugestaltung zielt darauf ab, grundlegende Einschränkungen bestehender Schnittstellen zu überwinden und den Weg für effizientere, zuverlässigere und transparentere Web-Agenten-Designs zu ebnen, was eine gemeinsame Anstrengung der breiteren ML-Community erfordern wird.

English

Recent advancements in Large Language Models (LLMs) and multimodal counterparts have spurred significant interest in developing web agents -- AI systems capable of autonomously navigating and completing tasks within web environments. While holding tremendous promise for automating complex web interactions, current approaches face substantial challenges due to the fundamental mismatch between human-designed interfaces and LLM capabilities. Current methods struggle with the inherent complexity of web inputs, whether processing massive DOM trees, relying on screenshots augmented with additional information, or bypassing the user interface entirely through API interactions. This position paper advocates for a paradigm shift in web agent research: rather than forcing web agents to adapt to interfaces designed for humans, we should develop a new interaction paradigm specifically optimized for agentic capabilities. To this end, we introduce the concept of an Agentic Web Interface (AWI), an interface specifically designed for agents to navigate a website. We establish six guiding principles for AWI design, emphasizing safety, efficiency, and standardization, to account for the interests of all primary stakeholders. This reframing aims to overcome fundamental limitations of existing interfaces, paving the way for more efficient, reliable, and transparent web agent design, which will be a collaborative effort involving the broader ML community.

Baue das Web für Agenten, nicht Agenten für das Web.

Build the web for agents, not agents for the web

papers.abstract

Support