Costruisci il web per gli agenti, non gli agenti per il web.

Abstract

I recenti progressi nei Large Language Models (LLM) e nelle loro controparti multimodali hanno suscitato un notevole interesse nello sviluppo di agenti web — sistemi di intelligenza artificiale in grado di navigare autonomamente e completare attività all'interno di ambienti web. Sebbene promettano di automatizzare interazioni web complesse, gli approcci attuali affrontano sfide significative a causa del disallineamento fondamentale tra le interfacce progettate per gli esseri umani e le capacità degli LLM. I metodi attuali faticano a gestire la complessità intrinseca degli input web, che si tratti di elaborare alberi DOM di grandi dimensioni, fare affidamento su screenshot arricchiti con informazioni aggiuntive o bypassare completamente l'interfaccia utente attraverso interazioni API. Questo position paper propone un cambio di paradigma nella ricerca sugli agenti web: invece di costringere gli agenti web ad adattarsi a interfacce progettate per gli esseri umani, dovremmo sviluppare un nuovo paradigma di interazione specificamente ottimizzato per le capacità agentiche. A tal fine, introduciamo il concetto di Interfaccia Web Agente (Agentic Web Interface, AWI), un'interfaccia progettata specificamente per consentire agli agenti di navigare un sito web. Definiamo sei principi guida per la progettazione dell'AWI, enfatizzando sicurezza, efficienza e standardizzazione, per tenere conto degli interessi di tutte le parti interessate principali. Questo riquadramento mira a superare le limitazioni fondamentali delle interfacce esistenti, aprendo la strada a una progettazione di agenti web più efficiente, affidabile e trasparente, che sarà uno sforzo collaborativo che coinvolgerà la più ampia comunità di machine learning.

English

Recent advancements in Large Language Models (LLMs) and multimodal counterparts have spurred significant interest in developing web agents -- AI systems capable of autonomously navigating and completing tasks within web environments. While holding tremendous promise for automating complex web interactions, current approaches face substantial challenges due to the fundamental mismatch between human-designed interfaces and LLM capabilities. Current methods struggle with the inherent complexity of web inputs, whether processing massive DOM trees, relying on screenshots augmented with additional information, or bypassing the user interface entirely through API interactions. This position paper advocates for a paradigm shift in web agent research: rather than forcing web agents to adapt to interfaces designed for humans, we should develop a new interaction paradigm specifically optimized for agentic capabilities. To this end, we introduce the concept of an Agentic Web Interface (AWI), an interface specifically designed for agents to navigate a website. We establish six guiding principles for AWI design, emphasizing safety, efficiency, and standardization, to account for the interests of all primary stakeholders. This reframing aims to overcome fundamental limitations of existing interfaces, paving the way for more efficient, reliable, and transparent web agent design, which will be a collaborative effort involving the broader ML community.

Costruisci il web per gli agenti, non gli agenti per il web.

Build the web for agents, not agents for the web

Abstract

Support