Costruisci il web per gli agenti, non gli agenti per il web.
Build the web for agents, not agents for the web
June 12, 2025
Autori: Xing Han Lù, Gaurav Kamath, Marius Mosbach, Siva Reddy
cs.AI
Abstract
I recenti progressi nei Large Language Models (LLM) e nelle loro controparti multimodali hanno suscitato un notevole interesse nello sviluppo di agenti web — sistemi di intelligenza artificiale in grado di navigare autonomamente e completare attività all'interno di ambienti web. Sebbene promettano di automatizzare interazioni web complesse, gli approcci attuali affrontano sfide significative a causa del disallineamento fondamentale tra le interfacce progettate per gli esseri umani e le capacità degli LLM. I metodi attuali faticano a gestire la complessità intrinseca degli input web, che si tratti di elaborare alberi DOM di grandi dimensioni, fare affidamento su screenshot arricchiti con informazioni aggiuntive o bypassare completamente l'interfaccia utente attraverso interazioni API. Questo position paper propone un cambio di paradigma nella ricerca sugli agenti web: invece di costringere gli agenti web ad adattarsi a interfacce progettate per gli esseri umani, dovremmo sviluppare un nuovo paradigma di interazione specificamente ottimizzato per le capacità agentiche. A tal fine, introduciamo il concetto di Interfaccia Web Agente (Agentic Web Interface, AWI), un'interfaccia progettata specificamente per consentire agli agenti di navigare un sito web. Definiamo sei principi guida per la progettazione dell'AWI, enfatizzando sicurezza, efficienza e standardizzazione, per tenere conto degli interessi di tutte le parti interessate principali. Questo riquadramento mira a superare le limitazioni fondamentali delle interfacce esistenti, aprendo la strada a una progettazione di agenti web più efficiente, affidabile e trasparente, che sarà uno sforzo collaborativo che coinvolgerà la più ampia comunità di machine learning.
English
Recent advancements in Large Language Models (LLMs) and multimodal
counterparts have spurred significant interest in developing web agents -- AI
systems capable of autonomously navigating and completing tasks within web
environments. While holding tremendous promise for automating complex web
interactions, current approaches face substantial challenges due to the
fundamental mismatch between human-designed interfaces and LLM capabilities.
Current methods struggle with the inherent complexity of web inputs, whether
processing massive DOM trees, relying on screenshots augmented with additional
information, or bypassing the user interface entirely through API interactions.
This position paper advocates for a paradigm shift in web agent research:
rather than forcing web agents to adapt to interfaces designed for humans, we
should develop a new interaction paradigm specifically optimized for agentic
capabilities. To this end, we introduce the concept of an Agentic Web Interface
(AWI), an interface specifically designed for agents to navigate a website. We
establish six guiding principles for AWI design, emphasizing safety,
efficiency, and standardization, to account for the interests of all primary
stakeholders. This reframing aims to overcome fundamental limitations of
existing interfaces, paving the way for more efficient, reliable, and
transparent web agent design, which will be a collaborative effort involving
the broader ML community.