クラウドエージェントとデバイスエージェントが出会うとき:ハイブリッドマルチエージェントシステムからの教訓
When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems
May 28, 2026
著者: Corrado Rainone, Davide Belli, Bence Major, Arash Behboodi
cs.AI
要旨
エージェンティックAI推論の設計空間は、2つの極端な選択肢にまたがっている。すなわち、クラウド上でホストされることが多く、広範なタスクにわたって高い性能を発揮する一方でコストが非常に高いフロンティア大規模言語モデル(LLM)と、オンデバイス推論が可能でより費用対効果の高い小規模言語モデル(SLM)である。オンデバイスモデルとクラウドモデルを組み合わせたハイブリッドマルチエージェントシステム(MAS)は、これらの間の有望な妥協点となるが、タスク精度、金銭的コスト、エッジ端末のエネルギー消費が密接に結合した複雑で十分に理解されていない設計空間を導入する。一般的な設計原則が存在しない中で、ハイブリッド構成要素は最も一般的な選択ではないものの、特定のドメインに合わせたアドホックな決定を通じて導入されることが多い。本研究では、この設計空間をより体系的に検討する。ハイブリッド推論をサポートするよう2つの代表的なMASアーキテクチャを適応させ、個々の設計上の選択が、電力、コスト、性能に関するパレートフロンティア上で動作点をどのように変化させるかを調査する。我々の知見は、ハイブリッドMAS設計の微妙な描像を描き出す。すなわち、SLMはLLMの支援から効果的に恩恵を受けることができるが、最適なアーキテクチャはタスクに大きく依存しており、より強力なフロンティアレベルの計算能力が常に優れた性能に結びつくわけではない。
English
The design space of agentic AI inference spans two extremes: frontier large language models (LLMs), typically hosted in the cloud and offering strong performance across a wide range of tasks at substantially high cost, and more cost-efficient small language models (SLMs), which are amenable to on-device inference. Hybrid multi-agent systems (MASs) combining on-device and cloud models offer a promising middle ground, but they also introduce a complex and poorly understood design space in which task accuracy, monetary cost, and edge energy consumption are tightly coupled; in the absence of general design principles, hybrid components, although not the most prevalent choice, are typically introduced through ad hoc decisions tailored to specific domains. In this work, we examine this design space more systematically. We adapt two representative MAS architectures to support hybrid inference and study how individual design choices shift the operating point along the Pareto frontier of power, cost, and performance. Our findings paint a nuanced picture of hybrid MAS design: while SLMs can effectively benefit from LLM assistance, the optimal architecture is highly task-dependent, and greater frontier-level compute does not consistently translate to better performance.