Когда облачные агенты встречают агентов устройств: уроки гибридных мультиагентных систем

Аннотация

Дизайн-пространство инференции агентного ИИ охватывает две крайности: передовые большие языковые модели (LLM), обычно размещаемые в облаке и демонстрирующие высокую производительность в широком спектре задач при существенных затратах, и более экономичные малые языковые модели (SLM), пригодные для инференции на устройстве. Гибридные мультиагентные системы (MAS), сочетающие модели на устройстве и облачные модели, предлагают многообещающий компромисс, но также вводят сложное и слабо изученное дизайн-пространство, в котором точность выполнения задач, денежные затраты и энергопотребление на границе тесно связаны; при отсутствии общих принципов проектирования гибридные компоненты, хотя и не являются наиболее распространенным выбором, обычно внедряются на основе решений ad hoc, адаптированных к конкретным областям. В данной работе мы более систематически исследуем это дизайн-пространство. Мы адаптируем две репрезентативные архитектуры MAS для поддержки гибридной инференции и изучаем, как отдельные проектные решения смещают рабочую точку вдоль границы Парето по мощности, стоимости и производительности. Наши результаты выявляют многогранную картину проектирования гибридных MAS: хотя SLM могут эффективно извлекать выгоду из помощи LLM, оптимальная архитектура сильно зависит от задачи, а более высокие вычислительные возможности на уровне фронта не всегда гарантируют лучшее качество работы.

English

The design space of agentic AI inference spans two extremes: frontier large language models (LLMs), typically hosted in the cloud and offering strong performance across a wide range of tasks at substantially high cost, and more cost-efficient small language models (SLMs), which are amenable to on-device inference. Hybrid multi-agent systems (MASs) combining on-device and cloud models offer a promising middle ground, but they also introduce a complex and poorly understood design space in which task accuracy, monetary cost, and edge energy consumption are tightly coupled; in the absence of general design principles, hybrid components, although not the most prevalent choice, are typically introduced through ad hoc decisions tailored to specific domains. In this work, we examine this design space more systematically. We adapt two representative MAS architectures to support hybrid inference and study how individual design choices shift the operating point along the Pareto frontier of power, cost, and performance. Our findings paint a nuanced picture of hybrid MAS design: while SLMs can effectively benefit from LLM assistance, the optimal architecture is highly task-dependent, and greater frontier-level compute does not consistently translate to better performance.