웹을 에이전트를 위해 구축하라, 에이전트를 웹을 위해 만들지 말라
Build the web for agents, not agents for the web
June 12, 2025
저자: Xing Han Lù, Gaurav Kamath, Marius Mosbach, Siva Reddy
cs.AI
초록
최근 대규모 언어 모델(LLMs)과 멀티모달 대응 모델의 발전으로 웹 환경 내에서 자율적으로 탐색하고 작업을 완료할 수 있는 AI 시스템인 웹 에이전트 개발에 대한 관심이 크게 증가했습니다. 복잡한 웹 상호작용을 자동화할 수 있는 엄청난 잠재력을 지니고 있음에도 불구하고, 현재의 접근 방식은 인간 중심으로 설계된 인터페이스와 LLM의 능력 간의 근본적인 불일치로 인해 상당한 어려움에 직면하고 있습니다. 현재의 방법들은 방대한 DOM 트리 처리, 추가 정보가 포함된 스크린샷에 의존, 또는 API 상호작용을 통해 사용자 인터페이스를 완전히 우회하는 등 웹 입력의 본질적인 복잡성에 대처하는 데 어려움을 겪고 있습니다. 이 포지션 논문은 웹 에이전트 연구의 패러다임 전환을 주장합니다: 인간을 위해 설계된 인터페이스에 웹 에이전트를 적응시키기보다는, 에이전트의 능력에 최적화된 새로운 상호작용 패러다임을 개발해야 한다는 것입니다. 이를 위해, 우리는 에이전트가 웹사이트를 탐색할 수 있도록 특별히 설계된 인터페이스인 에이전틱 웹 인터페이스(AWI) 개념을 소개합니다. 우리는 AWI 설계를 위한 여섯 가지 지침 원칙을 제시하며, 안전성, 효율성, 표준화를 강조하여 모든 주요 이해관계자의 이익을 고려합니다. 이 재구성은 기존 인터페이스의 근본적인 한계를 극복하고, 더 효율적이고 신뢰할 수 있으며 투명한 웹 에이전트 설계를 위한 길을 열어줄 것입니다. 이는 더 넓은 머신러닝 커뮤니티가 참여하는 협력적 노력이 될 것입니다.
English
Recent advancements in Large Language Models (LLMs) and multimodal
counterparts have spurred significant interest in developing web agents -- AI
systems capable of autonomously navigating and completing tasks within web
environments. While holding tremendous promise for automating complex web
interactions, current approaches face substantial challenges due to the
fundamental mismatch between human-designed interfaces and LLM capabilities.
Current methods struggle with the inherent complexity of web inputs, whether
processing massive DOM trees, relying on screenshots augmented with additional
information, or bypassing the user interface entirely through API interactions.
This position paper advocates for a paradigm shift in web agent research:
rather than forcing web agents to adapt to interfaces designed for humans, we
should develop a new interaction paradigm specifically optimized for agentic
capabilities. To this end, we introduce the concept of an Agentic Web Interface
(AWI), an interface specifically designed for agents to navigate a website. We
establish six guiding principles for AWI design, emphasizing safety,
efficiency, and standardization, to account for the interests of all primary
stakeholders. This reframing aims to overcome fundamental limitations of
existing interfaces, paving the way for more efficient, reliable, and
transparent web agent design, which will be a collaborative effort involving
the broader ML community.