Bouw het web voor agents, niet agents voor het web.

Samenvatting

Recente vooruitgang in Large Language Models (LLM's) en multimodale tegenhangers heeft aanzienlijke interesse gewekt in de ontwikkeling van webagentschappen — AI-systemen die autonoom kunnen navigeren en taken kunnen voltooien binnen webomgevingen. Hoewel ze veelbelovend zijn voor het automatiseren van complexe webinteracties, worden huidige benaderingen geconfronteerd met aanzienlijke uitdagingen vanwege de fundamentele mismatch tussen door mensen ontworpen interfaces en de mogelijkheden van LLM's. Bestaande methoden worstelen met de inherente complexiteit van webinputs, of het nu gaat om het verwerken van enorme DOM-bomen, het vertrouwen op schermafbeeldingen aangevuld met extra informatie, of het volledig omzeilen van de gebruikersinterface via API-interacties. Dit position paper pleit voor een paradigmaverschuiving in onderzoek naar webagentschappen: in plaats van webagentschappen te dwingen zich aan te passen aan interfaces die voor mensen zijn ontworpen, moeten we een nieuw interactieparadigma ontwikkelen dat specifiek is geoptimaliseerd voor agentische mogelijkheden. Hiertoe introduceren we het concept van een Agentic Web Interface (AWI), een interface die specifiek is ontworpen voor agentschappen om een website te navigeren. We stellen zes leidende principes vast voor het ontwerp van AWI's, waarbij veiligheid, efficiëntie en standaardisatie worden benadrukt, om rekening te houden met de belangen van alle primaire belanghebbenden. Deze herformulering heeft tot doel fundamentele beperkingen van bestaande interfaces te overwinnen, waardoor de weg wordt vrijgemaakt voor efficiënter, betrouwbaarder en transparanter ontwerp van webagentschappen, wat een gezamenlijke inspanning zal zijn waarbij de bredere ML-gemeenschap betrokken is.

English

Recent advancements in Large Language Models (LLMs) and multimodal counterparts have spurred significant interest in developing web agents -- AI systems capable of autonomously navigating and completing tasks within web environments. While holding tremendous promise for automating complex web interactions, current approaches face substantial challenges due to the fundamental mismatch between human-designed interfaces and LLM capabilities. Current methods struggle with the inherent complexity of web inputs, whether processing massive DOM trees, relying on screenshots augmented with additional information, or bypassing the user interface entirely through API interactions. This position paper advocates for a paradigm shift in web agent research: rather than forcing web agents to adapt to interfaces designed for humans, we should develop a new interaction paradigm specifically optimized for agentic capabilities. To this end, we introduce the concept of an Agentic Web Interface (AWI), an interface specifically designed for agents to navigate a website. We establish six guiding principles for AWI design, emphasizing safety, efficiency, and standardization, to account for the interests of all primary stakeholders. This reframing aims to overcome fundamental limitations of existing interfaces, paving the way for more efficient, reliable, and transparent web agent design, which will be a collaborative effort involving the broader ML community.

Bouw het web voor agents, niet agents voor het web.

Build the web for agents, not agents for the web

Samenvatting

Support