Agentes API vs. Agentes GUI: Divergencia y Convergencia
API Agents vs. GUI Agents: Divergence and Convergence
March 14, 2025
Autores: Chaoyun Zhang, Shilin He, Liqun Li, Si Qin, Yu Kang, Qingwei Lin, Dongmei Zhang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han evolucionado más allá de la simple generación de texto para impulsar agentes de software que traducen directamente comandos en lenguaje natural en acciones tangibles. Si bien los agentes LLM basados en API inicialmente ganaron prominencia por sus robustas capacidades de automatización y su integración fluida con puntos finales programáticos, los avances recientes en la investigación de LLM multimodales han permitido el desarrollo de agentes LLM basados en GUI que interactúan con interfaces gráficas de usuario de manera similar a los humanos. Aunque estos dos paradigmas comparten el objetivo de habilitar la automatización de tareas impulsada por LLM, divergen significativamente en complejidad arquitectónica, flujos de desarrollo y modelos de interacción con el usuario.
Este artículo presenta el primer estudio comparativo exhaustivo de agentes LLM basados en API y GUI, analizando sistemáticamente sus divergencias y su potencial convergencia. Examinamos dimensiones clave y destacamos escenarios en los que los enfoques híbridos pueden aprovechar sus fortalezas complementarias. Al proponer criterios claros de decisión e ilustrar casos de uso prácticos, nuestro objetivo es guiar a profesionales e investigadores en la selección, combinación o transición entre estos paradigmas. En última instancia, indicamos que las innovaciones continuas en la automatización basada en LLM están preparadas para difuminar las líneas entre los agentes impulsados por API y GUI, allanando el camino para soluciones más flexibles y adaptativas en una amplia gama de aplicaciones del mundo real.
English
Large language models (LLMs) have evolved beyond simple text generation to
power software agents that directly translate natural language commands into
tangible actions. While API-based LLM agents initially rose to prominence for
their robust automation capabilities and seamless integration with programmatic
endpoints, recent progress in multimodal LLM research has enabled GUI-based LLM
agents that interact with graphical user interfaces in a human-like manner.
Although these two paradigms share the goal of enabling LLM-driven task
automation, they diverge significantly in architectural complexity, development
workflows, and user interaction models.
This paper presents the first comprehensive comparative study of API-based
and GUI-based LLM agents, systematically analyzing their divergence and
potential convergence. We examine key dimensions and highlight scenarios in
which hybrid approaches can harness their complementary strengths. By proposing
clear decision criteria and illustrating practical use cases, we aim to guide
practitioners and researchers in selecting, combining, or transitioning between
these paradigms. Ultimately, we indicate that continuing innovations in
LLM-based automation are poised to blur the lines between API- and GUI-driven
agents, paving the way for more flexible, adaptive solutions in a wide range of
real-world applications.Summary
AI-Generated Summary