Construisez le web pour les agents, pas les agents pour le web.
Build the web for agents, not agents for the web
June 12, 2025
Auteurs: Xing Han Lù, Gaurav Kamath, Marius Mosbach, Siva Reddy
cs.AI
Résumé
Les récentes avancées dans les modèles de langage de grande taille (LLMs) et leurs homologues multimodaux ont suscité un intérêt considérable pour le développement d'agents web — des systèmes d'intelligence artificielle capables de naviguer de manière autonome et d'accomplir des tâches dans des environnements web. Bien qu'ils promettent d'automatiser des interactions web complexes, les approches actuelles rencontrent des défis majeurs en raison de l'inadéquation fondamentale entre les interfaces conçues pour les humains et les capacités des LLMs. Les méthodes actuelles peinent à gérer la complexité inhérente des entrées web, qu'il s'agisse de traiter des arbres DOM massifs, de s'appuyer sur des captures d'écran enrichies d'informations supplémentaires, ou de contourner complètement l'interface utilisateur via des interactions API. Ce document de position plaide pour un changement de paradigme dans la recherche sur les agents web : plutôt que de forcer les agents web à s'adapter à des interfaces conçues pour les humains, nous devrions développer un nouveau paradigme d'interaction spécifiquement optimisé pour les capacités agentiques. À cette fin, nous introduisons le concept d'Interface Web Agentique (AWI), une interface spécialement conçue pour permettre aux agents de naviguer sur un site web. Nous établissons six principes directeurs pour la conception des AWI, mettant l'accent sur la sécurité, l'efficacité et la standardisation, afin de prendre en compte les intérêts de toutes les parties prenantes principales. Ce recadrage vise à surmonter les limitations fondamentales des interfaces existantes, ouvrant la voie à une conception d'agents web plus efficace, fiable et transparente, qui sera un effort collaboratif impliquant la communauté élargie de l'apprentissage automatique.
English
Recent advancements in Large Language Models (LLMs) and multimodal
counterparts have spurred significant interest in developing web agents -- AI
systems capable of autonomously navigating and completing tasks within web
environments. While holding tremendous promise for automating complex web
interactions, current approaches face substantial challenges due to the
fundamental mismatch between human-designed interfaces and LLM capabilities.
Current methods struggle with the inherent complexity of web inputs, whether
processing massive DOM trees, relying on screenshots augmented with additional
information, or bypassing the user interface entirely through API interactions.
This position paper advocates for a paradigm shift in web agent research:
rather than forcing web agents to adapt to interfaces designed for humans, we
should develop a new interaction paradigm specifically optimized for agentic
capabilities. To this end, we introduce the concept of an Agentic Web Interface
(AWI), an interface specifically designed for agents to navigate a website. We
establish six guiding principles for AWI design, emphasizing safety,
efficiency, and standardization, to account for the interests of all primary
stakeholders. This reframing aims to overcome fundamental limitations of
existing interfaces, paving the way for more efficient, reliable, and
transparent web agent design, which will be a collaborative effort involving
the broader ML community.