Große Sprachmodelle über Netzwerke: Kollaborative Intelligenz unter Ressourcenbeschränkungen

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) verändern die Gesellschaft und treiben Anwendungen von Smartphone-Assistenten bis hin zum autonomen Fahren an. Dennoch können allein cloud-basierte LLM-Dienste eine wachsende Klasse von Anwendungen nicht bedienen, darunter solche, die unter intermittierender Konnektivität, Sub-Sekunden-Latenzanforderungen, Datenresidenzauflagen oder dauerhafter Inferenz mit hohem Volumen arbeiten. Die Bereitstellung auf dem Gerät ist wiederum durch begrenzte Rechenleistung und Speicher eingeschränkt. Kein einzelner Endpunkt kann über dieses Spektrum hinweg eine hohe Dienstqualität liefern. Dieser Artikel konzentriert sich auf kollaborative Intelligenz, ein Paradigma, bei dem mehrere unabhängige, über Geräte- und Cloud-Endpunkte verteilte LLMs auf Aufgabenebene durch natürliche Sprache oder strukturierte Nachrichten zusammenarbeiten. Eine solche Zusammenarbeit strebt eine überlegene Antwortqualität unter heterogenen Ressourcenbeschränkungen an, die Rechenleistung, Speicher, Kommunikation und Kosten über Netzwerkschichten hinweg umfassen. Wir stellen kollaborative Inferenz entlang zweier komplementärer und zusammensetzbarer Dimensionen vor: vertikale Gerät-Cloud-Kollaboration und horizontale Multi-Agenten-Kollaboration, die in der Praxis zu Hybridtopologien kombiniert werden können. Anschließend untersuchen wir das Lernen zu kollaborieren, wobei wir uns mit dem Training von Routing-Richtlinien und der Entwicklung kooperativer Fähigkeiten unter LLMs befassen. Schließlich identifizieren wir offene Forschungshürden, darunter die Skalierung unter Ressourcenheterogenität und vertrauenswürdige kollaborative Intelligenz.

English

Large language models (LLMs) are transforming society, powering applications from smartphone assistants to autonomous driving. Yet cloud-based LLM services alone cannot serve a growing class of applications, including those operating under intermittent connectivity, sub-second latency budgets, data-residency constraints, or sustained high-volume inference. On-device deployment is in turn constrained by limited computation and memory. No single endpoint can deliver high-quality service across this spectrum. This article focuses on collaborative intelligence, a paradigm in which multiple independent LLMs distributed across device and cloud endpoints collaborate at the task level through natural language or structured messages. Such collaboration strives for superior response quality under heterogeneous resource constraints spanning computation, memory, communication, and cost across network tiers. We present collaborative inference along two complementary and composable dimensions: vertical device-cloud collaboration and horizontal multi-agent collaboration, which can be combined into hybrid topologies in practice. We then examine learning to collaborate, addressing the training of routing policies and the development of cooperative capabilities among LLMs. Finally, we identify open research challenges including scaling under resource heterogeneity and trustworthy collaborative intelligence.

Große Sprachmodelle über Netzwerke: Kollaborative Intelligenz unter Ressourcenbeschränkungen

Large Language Models over Networks: Collaborative Intelligence under Resource Constraints

Zusammenfassung

Support