Bouw het web voor agents, niet agents voor het web.
Build the web for agents, not agents for the web
June 12, 2025
Auteurs: Xing Han Lù, Gaurav Kamath, Marius Mosbach, Siva Reddy
cs.AI
Samenvatting
Recente vooruitgang in Large Language Models (LLM's) en multimodale tegenhangers heeft aanzienlijke interesse gewekt in de ontwikkeling van webagentschappen — AI-systemen die autonoom kunnen navigeren en taken kunnen voltooien binnen webomgevingen. Hoewel ze veelbelovend zijn voor het automatiseren van complexe webinteracties, worden huidige benaderingen geconfronteerd met aanzienlijke uitdagingen vanwege de fundamentele mismatch tussen door mensen ontworpen interfaces en de mogelijkheden van LLM's. Bestaande methoden worstelen met de inherente complexiteit van webinputs, of het nu gaat om het verwerken van enorme DOM-bomen, het vertrouwen op schermafbeeldingen aangevuld met extra informatie, of het volledig omzeilen van de gebruikersinterface via API-interacties. Dit position paper pleit voor een paradigmaverschuiving in onderzoek naar webagentschappen: in plaats van webagentschappen te dwingen zich aan te passen aan interfaces die voor mensen zijn ontworpen, moeten we een nieuw interactieparadigma ontwikkelen dat specifiek is geoptimaliseerd voor agentische mogelijkheden. Hiertoe introduceren we het concept van een Agentic Web Interface (AWI), een interface die specifiek is ontworpen voor agentschappen om een website te navigeren. We stellen zes leidende principes vast voor het ontwerp van AWI's, waarbij veiligheid, efficiëntie en standaardisatie worden benadrukt, om rekening te houden met de belangen van alle primaire belanghebbenden. Deze herformulering heeft tot doel fundamentele beperkingen van bestaande interfaces te overwinnen, waardoor de weg wordt vrijgemaakt voor efficiënter, betrouwbaarder en transparanter ontwerp van webagentschappen, wat een gezamenlijke inspanning zal zijn waarbij de bredere ML-gemeenschap betrokken is.
English
Recent advancements in Large Language Models (LLMs) and multimodal
counterparts have spurred significant interest in developing web agents -- AI
systems capable of autonomously navigating and completing tasks within web
environments. While holding tremendous promise for automating complex web
interactions, current approaches face substantial challenges due to the
fundamental mismatch between human-designed interfaces and LLM capabilities.
Current methods struggle with the inherent complexity of web inputs, whether
processing massive DOM trees, relying on screenshots augmented with additional
information, or bypassing the user interface entirely through API interactions.
This position paper advocates for a paradigm shift in web agent research:
rather than forcing web agents to adapt to interfaces designed for humans, we
should develop a new interaction paradigm specifically optimized for agentic
capabilities. To this end, we introduce the concept of an Agentic Web Interface
(AWI), an interface specifically designed for agents to navigate a website. We
establish six guiding principles for AWI design, emphasizing safety,
efficiency, and standardization, to account for the interests of all primary
stakeholders. This reframing aims to overcome fundamental limitations of
existing interfaces, paving the way for more efficient, reliable, and
transparent web agent design, which will be a collaborative effort involving
the broader ML community.