Wanneer cloudagenten en apparaat-agenten elkaar ontmoeten: lessen uit hybride multi-agentsystemen

Samenvatting

De ontwerpruimte van agentische AI-inferentie omvat twee uitersten: grensverleggende grote taalmodellen (LLM's), doorgaans gehost in de cloud en met sterke prestaties op een breed scala aan taken tegen aanzienlijk hoge kosten, en kostenefficiëntere kleine taalmodellen (SLM's), die geschikt zijn voor inferentie op het apparaat. Hybride multi-agentsystemen (MAS'en) die modellen op het apparaat en in de cloud combineren, bieden een veelbelovend middenweg, maar introduceren ook een complexe en slecht begrepen ontwerpruimte waarin taaknauwkeurigheid, monetaire kosten en energieverbruik op het randapparaat nauw met elkaar verweven zijn; bij gebrek aan algemene ontwerpprincipes worden hybride componenten, hoewel niet de meest gangbare keuze, doorgaans geïntroduceerd via ad-hocbeslissingen die zijn toegesneden op specifieke domeinen. In dit werk onderzoeken we deze ontwerpruimte systematischer. We passen twee representatieve MAS-architecturen aan om hybride inferentie te ondersteunen en bestuderen hoe individuele ontwerpkeuzes het werkpunt langs de Pareto-grens van vermogen, kosten en prestaties verschuiven. Onze bevindingen schetsen een genuanceerd beeld van hybride MAS-ontwerp: hoewel SLM's effectief kunnen profiteren van LLM-assistentie, is de optimale architectuur sterk taakafhankelijk, en leidt een grotere rekenkracht op grensniveau niet consistent tot betere prestaties.

English

The design space of agentic AI inference spans two extremes: frontier large language models (LLMs), typically hosted in the cloud and offering strong performance across a wide range of tasks at substantially high cost, and more cost-efficient small language models (SLMs), which are amenable to on-device inference. Hybrid multi-agent systems (MASs) combining on-device and cloud models offer a promising middle ground, but they also introduce a complex and poorly understood design space in which task accuracy, monetary cost, and edge energy consumption are tightly coupled; in the absence of general design principles, hybrid components, although not the most prevalent choice, are typically introduced through ad hoc decisions tailored to specific domains. In this work, we examine this design space more systematically. We adapt two representative MAS architectures to support hybrid inference and study how individual design choices shift the operating point along the Pareto frontier of power, cost, and performance. Our findings paint a nuanced picture of hybrid MAS design: while SLMs can effectively benefit from LLM assistance, the optimal architecture is highly task-dependent, and greater frontier-level compute does not consistently translate to better performance.