API 에이전트 vs. GUI 에이전트: 분기와 융합
API Agents vs. GUI Agents: Divergence and Convergence
March 14, 2025
저자: Chaoyun Zhang, Shilin He, Liqun Li, Si Qin, Yu Kang, Qingwei Lin, Dongmei Zhang
cs.AI
초록
대규모 언어 모델(LLMs)은 단순한 텍스트 생성 기능을 넘어 자연어 명령을 직접적인 행동으로 변환하는 소프트웨어 에이전트를 구동하는 수준으로 진화했습니다. API 기반 LLM 에이전트는 강력한 자동화 기능과 프로그래밍적 엔드포인트와의 원활한 통합으로 초기에 주목받았지만, 최근 멀티모달 LLM 연구의 진전으로 그래픽 사용자 인터페이스(GUI)와 인간과 유사한 방식으로 상호작용하는 GUI 기반 LLM 에이전트가 가능해졌습니다. 이 두 패러다임은 LLM 기반 작업 자동화를 목표로 한다는 공통점이 있지만, 아키텍처 복잡성, 개발 워크플로우, 사용자 상호작용 모델 측면에서 상당한 차이를 보입니다.
본 논문은 API 기반과 GUI 기반 LLM 에이전트를 최초로 포괄적으로 비교 분석한 연구로, 이들의 차이점과 잠재적인 융합 가능성을 체계적으로 검토합니다. 주요 차원을 살펴보고, 하이브리드 접근 방식이 상호 보완적 강점을 활용할 수 있는 시나리오를 강조합니다. 명확한 의사결정 기준을 제안하고 실질적인 사용 사례를 제시함으로써, 실무자와 연구자들이 이러한 패러다임을 선택, 결합 또는 전환하는 데 도움을 주고자 합니다. 궁극적으로, LLM 기반 자동화의 지속적인 혁신이 API와 GUI 기반 에이전트 간의 경계를 흐리게 하여, 다양한 실제 애플리케이션에서 더 유연하고 적응적인 솔루션을 위한 길을 열 것으로 전망합니다.
English
Large language models (LLMs) have evolved beyond simple text generation to
power software agents that directly translate natural language commands into
tangible actions. While API-based LLM agents initially rose to prominence for
their robust automation capabilities and seamless integration with programmatic
endpoints, recent progress in multimodal LLM research has enabled GUI-based LLM
agents that interact with graphical user interfaces in a human-like manner.
Although these two paradigms share the goal of enabling LLM-driven task
automation, they diverge significantly in architectural complexity, development
workflows, and user interaction models.
This paper presents the first comprehensive comparative study of API-based
and GUI-based LLM agents, systematically analyzing their divergence and
potential convergence. We examine key dimensions and highlight scenarios in
which hybrid approaches can harness their complementary strengths. By proposing
clear decision criteria and illustrating practical use cases, we aim to guide
practitioners and researchers in selecting, combining, or transitioning between
these paradigms. Ultimately, we indicate that continuing innovations in
LLM-based automation are poised to blur the lines between API- and GUI-driven
agents, paving the way for more flexible, adaptive solutions in a wide range of
real-world applications.Summary
AI-Generated Summary