Создавайте веб для агентов, а не агентов для веба.
Build the web for agents, not agents for the web
June 12, 2025
Авторы: Xing Han Lù, Gaurav Kamath, Marius Mosbach, Siva Reddy
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) и их мультимодальных аналогов вызвали значительный интерес к разработке веб-агентов — систем искусственного интеллекта, способных автономно взаимодействовать с веб-средой и выполнять задачи. Несмотря на огромный потенциал для автоматизации сложных веб-взаимодействий, современные подходы сталкиваются с существенными трудностями из-за фундаментального несоответствия между интерфейсами, разработанными для людей, и возможностями LLM. Существующие методы испытывают сложности с обработкой сложных веб-входных данных, будь то анализ огромных DOM-деревьев, использование скриншотов, дополненных дополнительной информацией, или полный обход пользовательского интерфейса через взаимодействие с API. В данной позиционной статье предлагается смена парадигмы в исследованиях веб-агентов: вместо того чтобы заставлять веб-агенты адаптироваться к интерфейсам, созданным для людей, следует разработать новую парадигму взаимодействия, оптимизированную специально для агентских возможностей. С этой целью мы вводим концепцию Агентского Веб-Интерфейса (AWI) — интерфейса, специально разработанного для навигации агентов по веб-сайтам. Мы формулируем шесть руководящих принципов проектирования AWI, подчеркивая безопасность, эффективность и стандартизацию, чтобы учесть интересы всех ключевых заинтересованных сторон. Этот пересмотр направлен на преодоление фундаментальных ограничений существующих интерфейсов, прокладывая путь к более эффективному, надежному и прозрачному проектированию веб-агентов, что станет результатом совместных усилий широкого сообщества машинного обучения.
English
Recent advancements in Large Language Models (LLMs) and multimodal
counterparts have spurred significant interest in developing web agents -- AI
systems capable of autonomously navigating and completing tasks within web
environments. While holding tremendous promise for automating complex web
interactions, current approaches face substantial challenges due to the
fundamental mismatch between human-designed interfaces and LLM capabilities.
Current methods struggle with the inherent complexity of web inputs, whether
processing massive DOM trees, relying on screenshots augmented with additional
information, or bypassing the user interface entirely through API interactions.
This position paper advocates for a paradigm shift in web agent research:
rather than forcing web agents to adapt to interfaces designed for humans, we
should develop a new interaction paradigm specifically optimized for agentic
capabilities. To this end, we introduce the concept of an Agentic Web Interface
(AWI), an interface specifically designed for agents to navigate a website. We
establish six guiding principles for AWI design, emphasizing safety,
efficiency, and standardization, to account for the interests of all primary
stakeholders. This reframing aims to overcome fundamental limitations of
existing interfaces, paving the way for more efficient, reliable, and
transparent web agent design, which will be a collaborative effort involving
the broader ML community.