ChatPaper.aiChatPaper

Construye la web para los agentes, no los agentes para la web.

Build the web for agents, not agents for the web

June 12, 2025
Autores: Xing Han Lù, Gaurav Kamath, Marius Mosbach, Siva Reddy
cs.AI

Resumen

Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y sus contrapartes multimodales han generado un interés significativo en el desarrollo de agentes web: sistemas de inteligencia artificial capaces de navegar y completar tareas de manera autónoma en entornos web. Aunque prometen enormemente automatizar interacciones web complejas, los enfoques actuales enfrentan desafíos sustanciales debido a la discrepancia fundamental entre las interfaces diseñadas para humanos y las capacidades de los LLMs. Los métodos actuales luchan con la complejidad inherente de las entradas web, ya sea procesando árboles DOM masivos, dependiendo de capturas de pantalla complementadas con información adicional o evitando completamente la interfaz de usuario mediante interacciones con API. Este documento de posición aboga por un cambio de paradigma en la investigación de agentes web: en lugar de forzar a los agentes web a adaptarse a interfaces diseñadas para humanos, deberíamos desarrollar un nuevo paradigma de interacción específicamente optimizado para capacidades agentivas. Con este fin, introducimos el concepto de una Interfaz Web Agentiva (AWI, por sus siglas en inglés), una interfaz diseñada específicamente para que los agentes naveguen por un sitio web. Establecemos seis principios rectores para el diseño de AWI, enfatizando la seguridad, la eficiencia y la estandarización, para tener en cuenta los intereses de todas las partes interesadas principales. Este replanteamiento busca superar las limitaciones fundamentales de las interfaces existentes, allanando el camino para un diseño de agentes web más eficiente, confiable y transparente, que será un esfuerzo colaborativo que involucrará a la comunidad más amplia de aprendizaje automático.
English
Recent advancements in Large Language Models (LLMs) and multimodal counterparts have spurred significant interest in developing web agents -- AI systems capable of autonomously navigating and completing tasks within web environments. While holding tremendous promise for automating complex web interactions, current approaches face substantial challenges due to the fundamental mismatch between human-designed interfaces and LLM capabilities. Current methods struggle with the inherent complexity of web inputs, whether processing massive DOM trees, relying on screenshots augmented with additional information, or bypassing the user interface entirely through API interactions. This position paper advocates for a paradigm shift in web agent research: rather than forcing web agents to adapt to interfaces designed for humans, we should develop a new interaction paradigm specifically optimized for agentic capabilities. To this end, we introduce the concept of an Agentic Web Interface (AWI), an interface specifically designed for agents to navigate a website. We establish six guiding principles for AWI design, emphasizing safety, efficiency, and standardization, to account for the interests of all primary stakeholders. This reframing aims to overcome fundamental limitations of existing interfaces, paving the way for more efficient, reliable, and transparent web agent design, which will be a collaborative effort involving the broader ML community.
PDF122June 13, 2025