Quando Agentes em Nuvem Encontram Agentes de Dispositivos: Lições de Sistemas Multiagente Híbridos

Resumo

O espaço de design da inferência de IA agêntica abrange dois extremos: modelos de linguagem de grande porte (LLMs) de fronteira, normalmente hospedados na nuvem e que oferecem desempenho robusto em uma ampla gama de tarefas a um custo substancialmente elevado, e modelos de linguagem pequenos (SLMs) mais eficientes em termos de custo, que são adequados para inferência no dispositivo. Sistemas multiagentes (MAS) híbridos que combinam modelos de dispositivo e de nuvem oferecem um promissor meio-termo, mas também introduzem um espaço de design complexo e pouco compreendido, no qual a precisão das tarefas, o custo monetário e o consumo de energia na borda estão fortemente acoplados; na ausência de princípios gerais de design, os componentes híbridos, embora não sejam a escolha mais prevalente, são tipicamente introduzidos por meio de decisões ad hoc adaptadas a domínios específicos. Neste trabalho, examinamos esse espaço de design de forma mais sistemática. Adaptamos duas arquiteturas representativas de MAS para suportar inferência híbrida e estudamos como escolhas individuais de design deslocam o ponto operacional ao longo da fronteira de Pareto de potência, custo e desempenho. Nossos achados pintam um quadro matizado do design de MAS híbridos: embora os SLMs possam se beneficiar efetivamente da assistência dos LLMs, a arquitetura ideal é altamente dependente da tarefa, e um maior poder computacional em nível de fronteira não se traduz consistentemente em melhor desempenho.

English

The design space of agentic AI inference spans two extremes: frontier large language models (LLMs), typically hosted in the cloud and offering strong performance across a wide range of tasks at substantially high cost, and more cost-efficient small language models (SLMs), which are amenable to on-device inference. Hybrid multi-agent systems (MASs) combining on-device and cloud models offer a promising middle ground, but they also introduce a complex and poorly understood design space in which task accuracy, monetary cost, and edge energy consumption are tightly coupled; in the absence of general design principles, hybrid components, although not the most prevalent choice, are typically introduced through ad hoc decisions tailored to specific domains. In this work, we examine this design space more systematically. We adapt two representative MAS architectures to support hybrid inference and study how individual design choices shift the operating point along the Pareto frontier of power, cost, and performance. Our findings paint a nuanced picture of hybrid MAS design: while SLMs can effectively benefit from LLM assistance, the optimal architecture is highly task-dependent, and greater frontier-level compute does not consistently translate to better performance.