Agentes API vs. Agentes GUI: Divergencia y Convergencia

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han evolucionado más allá de la simple generación de texto para impulsar agentes de software que traducen directamente comandos en lenguaje natural en acciones tangibles. Si bien los agentes LLM basados en API inicialmente ganaron prominencia por sus robustas capacidades de automatización y su integración fluida con puntos finales programáticos, los avances recientes en la investigación de LLM multimodales han permitido el desarrollo de agentes LLM basados en GUI que interactúan con interfaces gráficas de usuario de manera similar a los humanos. Aunque estos dos paradigmas comparten el objetivo de habilitar la automatización de tareas impulsada por LLM, divergen significativamente en complejidad arquitectónica, flujos de desarrollo y modelos de interacción con el usuario. Este artículo presenta el primer estudio comparativo exhaustivo de agentes LLM basados en API y GUI, analizando sistemáticamente sus divergencias y su potencial convergencia. Examinamos dimensiones clave y destacamos escenarios en los que los enfoques híbridos pueden aprovechar sus fortalezas complementarias. Al proponer criterios claros de decisión e ilustrar casos de uso prácticos, nuestro objetivo es guiar a profesionales e investigadores en la selección, combinación o transición entre estos paradigmas. En última instancia, indicamos que las innovaciones continuas en la automatización basada en LLM están preparadas para difuminar las líneas entre los agentes impulsados por API y GUI, allanando el camino para soluciones más flexibles y adaptativas en una amplia gama de aplicaciones del mundo real.

English

Large language models (LLMs) have evolved beyond simple text generation to power software agents that directly translate natural language commands into tangible actions. While API-based LLM agents initially rose to prominence for their robust automation capabilities and seamless integration with programmatic endpoints, recent progress in multimodal LLM research has enabled GUI-based LLM agents that interact with graphical user interfaces in a human-like manner. Although these two paradigms share the goal of enabling LLM-driven task automation, they diverge significantly in architectural complexity, development workflows, and user interaction models. This paper presents the first comprehensive comparative study of API-based and GUI-based LLM agents, systematically analyzing their divergence and potential convergence. We examine key dimensions and highlight scenarios in which hybrid approaches can harness their complementary strengths. By proposing clear decision criteria and illustrating practical use cases, we aim to guide practitioners and researchers in selecting, combining, or transitioning between these paradigms. Ultimately, we indicate that continuing innovations in LLM-based automation are poised to blur the lines between API- and GUI-driven agents, paving the way for more flexible, adaptive solutions in a wide range of real-world applications.

Agentes API vs. Agentes GUI: Divergencia y Convergencia

API Agents vs. GUI Agents: Divergence and Convergence

Resumen

Support