Большие языковые модели в сетях: коллаборативный интеллект в условиях ограниченных ресурсов

Аннотация

Большие языковые модели (LLM) преобразуют общество, обеспечивая работу приложений от помощников в смартфонах до автономного вождения. Однако одних только облачных сервисов LLM недостаточно для обслуживания растущего класса приложений, в том числе работающих в условиях прерывистого соединения, ограничений по задержке в доли секунды, ограничений на размещение данных или постоянного высокообъемного вывода. Развертывание на устройстве, в свою очередь, ограничено вычислительными ресурсами и памятью. Ни одна отдельная конечная точка не может обеспечить высококачественное обслуживание во всем этом спектре. Данная статья посвящена коллаборативному интеллекту — парадигме, в которой несколько независимых LLM, распределенных по конечным точкам устройств и облака, сотрудничают на уровне задач с помощью естественного языка или структурированных сообщений. Такое сотрудничество стремится к превосходному качеству ответов при гетерогенных ограничениях ресурсов, охватывающих вычисления, память, связь и стоимость на разных уровнях сети. Мы представляем коллаборативный вывод в двух взаимодополняющих и компонуемых измерениях: вертикальное сотрудничество «устройство-облако» и горизонтальное multi-agent сотрудничество, которые на практике могут быть объединены в гибридные топологии. Затем мы рассматриваем обучение сотрудничеству, касающееся тренировки политик маршрутизации и развития кооперативных способностей среди LLM. Наконец, мы определяем открытые исследовательские задачи, включая масштабирование в условиях гетерогенности ресурсов и надежный коллаборативный интеллект.

English

Large language models (LLMs) are transforming society, powering applications from smartphone assistants to autonomous driving. Yet cloud-based LLM services alone cannot serve a growing class of applications, including those operating under intermittent connectivity, sub-second latency budgets, data-residency constraints, or sustained high-volume inference. On-device deployment is in turn constrained by limited computation and memory. No single endpoint can deliver high-quality service across this spectrum. This article focuses on collaborative intelligence, a paradigm in which multiple independent LLMs distributed across device and cloud endpoints collaborate at the task level through natural language or structured messages. Such collaboration strives for superior response quality under heterogeneous resource constraints spanning computation, memory, communication, and cost across network tiers. We present collaborative inference along two complementary and composable dimensions: vertical device-cloud collaboration and horizontal multi-agent collaboration, which can be combined into hybrid topologies in practice. We then examine learning to collaborate, addressing the training of routing policies and the development of cooperative capabilities among LLMs. Finally, we identify open research challenges including scaling under resource heterogeneity and trustworthy collaborative intelligence.

Большие языковые модели в сетях: коллаборативный интеллект в условиях ограниченных ресурсов

Large Language Models over Networks: Collaborative Intelligence under Resource Constraints

Аннотация

Support