Baue das Web für Agenten, nicht Agenten für das Web.
Build the web for agents, not agents for the web
June 12, 2025
Autoren: Xing Han Lù, Gaurav Kamath, Marius Mosbach, Siva Reddy
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Large Language Models (LLMs) und ihren multimodalen Gegenstücken haben ein erhebliches Interesse an der Entwicklung von Web-Agenten geweckt – KI-Systemen, die in der Lage sind, autonom in Webumgebungen zu navigieren und Aufgaben zu erledigen. Obwohl sie ein enormes Potenzial für die Automatisierung komplexer Webinteraktionen bieten, stehen aktuelle Ansätze vor erheblichen Herausforderungen aufgrund der grundlegenden Diskrepanz zwischen menschengestalteten Schnittstellen und den Fähigkeiten von LLMs. Aktuelle Methoden kämpfen mit der inhärenten Komplexität von Web-Eingaben, sei es bei der Verarbeitung umfangreicher DOM-Bäume, der Nutzung von Screenshots, die mit zusätzlichen Informationen angereichert sind, oder dem vollständigen Umgehen der Benutzeroberfläche durch API-Interaktionen. Dieses Positionspapier plädiert für einen Paradigmenwechsel in der Forschung zu Web-Agenten: Anstatt Web-Agenten an Schnittstellen anzupassen, die für Menschen entwickelt wurden, sollten wir ein neues Interaktionsparadigma schaffen, das speziell für agentische Fähigkeiten optimiert ist. Zu diesem Zweck führen wir das Konzept einer Agentic Web Interface (AWI) ein, einer Schnittstelle, die speziell für die Navigation von Agenten auf einer Website entwickelt wurde. Wir legen sechs Leitprinzipien für das AWI-Design fest, die Sicherheit, Effizienz und Standardisierung betonen, um die Interessen aller primären Stakeholder zu berücksichtigen. Diese Neugestaltung zielt darauf ab, grundlegende Einschränkungen bestehender Schnittstellen zu überwinden und den Weg für effizientere, zuverlässigere und transparentere Web-Agenten-Designs zu ebnen, was eine gemeinsame Anstrengung der breiteren ML-Community erfordern wird.
English
Recent advancements in Large Language Models (LLMs) and multimodal
counterparts have spurred significant interest in developing web agents -- AI
systems capable of autonomously navigating and completing tasks within web
environments. While holding tremendous promise for automating complex web
interactions, current approaches face substantial challenges due to the
fundamental mismatch between human-designed interfaces and LLM capabilities.
Current methods struggle with the inherent complexity of web inputs, whether
processing massive DOM trees, relying on screenshots augmented with additional
information, or bypassing the user interface entirely through API interactions.
This position paper advocates for a paradigm shift in web agent research:
rather than forcing web agents to adapt to interfaces designed for humans, we
should develop a new interaction paradigm specifically optimized for agentic
capabilities. To this end, we introduce the concept of an Agentic Web Interface
(AWI), an interface specifically designed for agents to navigate a website. We
establish six guiding principles for AWI design, emphasizing safety,
efficiency, and standardization, to account for the interests of all primary
stakeholders. This reframing aims to overcome fundamental limitations of
existing interfaces, paving the way for more efficient, reliable, and
transparent web agent design, which will be a collaborative effort involving
the broader ML community.