Wenn Cloud-Agenten auf Geräte-Agenten treffen: Lehren aus hybriden Multi-Agenten-Systemen

Zusammenfassung

Der Entwurfsraum der agentischen KI-Inferenz erstreckt sich über zwei Extreme: hochmoderne große Sprachmodelle (Large Language Models, LLMs), die typischerweise in der Cloud gehostet werden und eine starke Leistung über ein breites Aufgabenspektrum zu erheblich hohen Kosten bieten, und kosteneffizientere kleine Sprachmodelle (Small Language Models, SLMs), die sich für die Inferenz auf dem Gerät eignen. Hybride Multi-Agenten-Systeme (Multi-Agent Systems, MAS), die Modelle auf dem Gerät und in der Cloud kombinieren, bieten einen vielversprechenden Mittelweg, führen aber auch einen komplexen und wenig verstandenen Entwurfsraum ein, in dem Aufgabenrichtigkeit, monetäre Kosten und Energieverbrauch am Rand eng miteinander verknüpft sind; in Ermangelung allgemeiner Entwurfsprinzipien werden hybride Komponenten, obwohl nicht die häufigste Wahl, typischerweise durch Ad-hoc-Entscheidungen eingeführt, die auf bestimmte Domänen zugeschnitten sind. In dieser Arbeit untersuchen wir diesen Entwurfsraum systematischer. Wir passen zwei repräsentative MAS-Architekturen an, um hybride Inferenz zu unterstützen, und untersuchen, wie einzelne Designentscheidungen den Betriebspunkt entlang der Pareto-Grenze von Leistung, Kosten und Performanz verschieben. Unsere Ergebnisse zeichnen ein nuanciertes Bild des hybriden MAS-Designs: Während SLMs effektiv von LLM-Unterstützung profitieren können, ist die optimale Architektur stark aufgabenabhängig, und höhere Rechenleistung auf Frontier-Ebene führt nicht durchgängig zu besserer Performanz.

English

The design space of agentic AI inference spans two extremes: frontier large language models (LLMs), typically hosted in the cloud and offering strong performance across a wide range of tasks at substantially high cost, and more cost-efficient small language models (SLMs), which are amenable to on-device inference. Hybrid multi-agent systems (MASs) combining on-device and cloud models offer a promising middle ground, but they also introduce a complex and poorly understood design space in which task accuracy, monetary cost, and edge energy consumption are tightly coupled; in the absence of general design principles, hybrid components, although not the most prevalent choice, are typically introduced through ad hoc decisions tailored to specific domains. In this work, we examine this design space more systematically. We adapt two representative MAS architectures to support hybrid inference and study how individual design choices shift the operating point along the Pareto frontier of power, cost, and performance. Our findings paint a nuanced picture of hybrid MAS design: while SLMs can effectively benefit from LLM assistance, the optimal architecture is highly task-dependent, and greater frontier-level compute does not consistently translate to better performance.