Construa a web para agentes, não agentes para a web.
Build the web for agents, not agents for the web
June 12, 2025
Autores: Xing Han Lù, Gaurav Kamath, Marius Mosbach, Siva Reddy
cs.AI
Resumo
Os recentes avanços em Modelos de Linguagem de Grande Escala (LLMs) e suas contrapartes multimodais têm despertado um interesse significativo no desenvolvimento de agentes web — sistemas de IA capazes de navegar e completar tarefas de forma autônoma em ambientes web. Embora prometam revolucionar a automação de interações complexas na web, as abordagens atuais enfrentam desafios substanciais devido ao descompasso fundamental entre interfaces projetadas para humanos e as capacidades dos LLMs. Os métodos atuais lutam com a complexidade inerente das entradas web, seja ao processar árvores DOM massivas, depender de capturas de tela complementadas com informações adicionais ou contornar completamente a interface do usuário por meio de interações via API. Este artigo de posicionamento defende uma mudança de paradigma na pesquisa de agentes web: em vez de forçar os agentes web a se adaptarem a interfaces projetadas para humanos, devemos desenvolver um novo paradigma de interação especificamente otimizado para capacidades agentivas. Para isso, introduzimos o conceito de Interface Web Agentiva (AWI), uma interface projetada especificamente para agentes navegarem em um site. Estabelecemos seis princípios orientadores para o design de AWI, enfatizando segurança, eficiência e padronização, para considerar os interesses de todas as partes interessadas principais. Essa reformulação visa superar limitações fundamentais das interfaces existentes, abrindo caminho para um design de agentes web mais eficiente, confiável e transparente, que será um esforço colaborativo envolvendo a comunidade mais ampla de aprendizado de máquina.
English
Recent advancements in Large Language Models (LLMs) and multimodal
counterparts have spurred significant interest in developing web agents -- AI
systems capable of autonomously navigating and completing tasks within web
environments. While holding tremendous promise for automating complex web
interactions, current approaches face substantial challenges due to the
fundamental mismatch between human-designed interfaces and LLM capabilities.
Current methods struggle with the inherent complexity of web inputs, whether
processing massive DOM trees, relying on screenshots augmented with additional
information, or bypassing the user interface entirely through API interactions.
This position paper advocates for a paradigm shift in web agent research:
rather than forcing web agents to adapt to interfaces designed for humans, we
should develop a new interaction paradigm specifically optimized for agentic
capabilities. To this end, we introduce the concept of an Agentic Web Interface
(AWI), an interface specifically designed for agents to navigate a website. We
establish six guiding principles for AWI design, emphasizing safety,
efficiency, and standardization, to account for the interests of all primary
stakeholders. This reframing aims to overcome fundamental limitations of
existing interfaces, paving the way for more efficient, reliable, and
transparent web agent design, which will be a collaborative effort involving
the broader ML community.