Cuando los Agentes en la Nube se Encuentran con los Agentes de Dispositivos: Lecciones de los Sistemas Multiagente Híbridos

Resumen

El espacio de diseño de la inferencia de IA agéntica abarca dos extremos: los grandes modelos de lenguaje (LLMs) de frontera, generalmente alojados en la nube y que ofrecen un rendimiento sólido en una amplia gama de tareas a un costo considerablemente alto, y los modelos de lenguaje pequeños (SLMs) más eficientes en costos, que son adecuados para la inferencia en el dispositivo. Los sistemas multiagente (MAS) híbridos que combinan modelos en el dispositivo y en la nube representan un término medio prometedor, pero también introducen un espacio de diseño complejo y poco comprendido en el que la precisión de la tarea, el costo monetario y el consumo de energía en el borde están estrechamente acoplados; ante la ausencia de principios de diseño generales, los componentes híbridos, aunque no son la opción más prevalente, se introducen típicamente mediante decisiones ad hoc adaptadas a dominios específicos. En este trabajo, examinamos este espacio de diseño de manera más sistemática. Adaptamos dos arquitecturas MAS representativas para soportar la inferencia híbrida y estudiamos cómo las elecciones de diseño individuales desplazan el punto de operación a lo largo de la frontera de Pareto de potencia, costo y rendimiento. Nuestros hallazgos presentan una imagen matizada del diseño de MAS híbridos: si bien los SLMs pueden beneficiarse efectivamente de la asistencia de los LLMs, la arquitectura óptima depende en gran medida de la tarea, y un mayor cómputo a nivel de frontera no se traduce consistentemente en un mejor rendimiento.

English

The design space of agentic AI inference spans two extremes: frontier large language models (LLMs), typically hosted in the cloud and offering strong performance across a wide range of tasks at substantially high cost, and more cost-efficient small language models (SLMs), which are amenable to on-device inference. Hybrid multi-agent systems (MASs) combining on-device and cloud models offer a promising middle ground, but they also introduce a complex and poorly understood design space in which task accuracy, monetary cost, and edge energy consumption are tightly coupled; in the absence of general design principles, hybrid components, although not the most prevalent choice, are typically introduced through ad hoc decisions tailored to specific domains. In this work, we examine this design space more systematically. We adapt two representative MAS architectures to support hybrid inference and study how individual design choices shift the operating point along the Pareto frontier of power, cost, and performance. Our findings paint a nuanced picture of hybrid MAS design: while SLMs can effectively benefit from LLM assistance, the optimal architecture is highly task-dependent, and greater frontier-level compute does not consistently translate to better performance.