Quand les agents cloud rencontrent les agents de dispositifs : leçons des systèmes hybrides multi-agents

Résumé

L'espace de conception de l'inférence d'IA agentique s'étend entre deux extrêmes : les modèles de langage de grande taille (LLM) de pointe, généralement hébergés dans le cloud et offrant de solides performances sur un large éventail de tâches à un coût substantiellement élevé, et les petits modèles de langage (SLM) plus économiques, adaptés à l'inférence sur appareil. Les systèmes multi-agents (MAS) hybrides combinant des modèles sur appareil et dans le cloud offrent un compromis prometteur, mais ils introduisent également un espace de conception complexe et mal compris dans lequel la précision des tâches, le coût monétaire et la consommation d'énergie sur la périphérie sont étroitement liés ; en l'absence de principes de conception généraux, les composants hybrides, bien qu'ils ne soient pas le choix le plus répandu, sont généralement introduits par des décisions ad hoc adaptées à des domaines spécifiques. Dans ce travail, nous examinons cet espace de conception de manière plus systématique. Nous adaptons deux architectures MAS représentatives pour prendre en charge l'inférence hybride et étudions comment les choix de conception individuels déplacent le point de fonctionnement le long de la frontière de Pareto de la puissance, du coût et des performances. Nos résultats dressent un portrait nuancé de la conception des MAS hybrides : bien que les SLM puissent bénéficier efficacement de l'assistance des LLM, l'architecture optimale dépend fortement de la tâche, et une puissance de calcul accrue au niveau de la frontière ne se traduit pas systématiquement par de meilleures performances.

English

The design space of agentic AI inference spans two extremes: frontier large language models (LLMs), typically hosted in the cloud and offering strong performance across a wide range of tasks at substantially high cost, and more cost-efficient small language models (SLMs), which are amenable to on-device inference. Hybrid multi-agent systems (MASs) combining on-device and cloud models offer a promising middle ground, but they also introduce a complex and poorly understood design space in which task accuracy, monetary cost, and edge energy consumption are tightly coupled; in the absence of general design principles, hybrid components, although not the most prevalent choice, are typically introduced through ad hoc decisions tailored to specific domains. In this work, we examine this design space more systematically. We adapt two representative MAS architectures to support hybrid inference and study how individual design choices shift the operating point along the Pareto frontier of power, cost, and performance. Our findings paint a nuanced picture of hybrid MAS design: while SLMs can effectively benefit from LLM assistance, the optimal architecture is highly task-dependent, and greater frontier-level compute does not consistently translate to better performance.