Grands modèles de langage sur les réseaux : Intelligence collaborative sous contraintes de ressources

Résumé

Les grands modèles de langage (LLMs) transforment la société, alimentant des applications allant des assistants pour smartphones à la conduite autonome. Pourtant, les services de LLM basés uniquement sur le cloud ne peuvent pas répondre à une classe croissante d'applications, notamment celles fonctionnant avec une connectivité intermittente, des budgets de latence inférieurs à la seconde, des contraintes de résidence des données ou une inférence soutenue à volume élevé. Le déploiement sur appareil est quant à lui limité par des ressources de calcul et de mémoire restreintes. Aucun point d'accès unique ne peut offrir un service de haute qualité sur l'ensemble de ce spectre. Cet article se concentre sur l'intelligence collaborative, un paradigme dans lequel plusieurs LLMs indépendants répartis entre les points d'accès appareils et cloud collaborent au niveau des tâches via un langage naturel ou des messages structurés. Une telle collaboration vise une qualité de réponse supérieure sous des contraintes de ressources hétérogènes englobant le calcul, la mémoire, la communication et le coût à travers les niveaux du réseau. Nous présentons l'inférence collaborative selon deux dimensions complémentaires et composables : la collaboration verticale appareil-cloud et la collaboration horizontale multi-agents, qui peuvent être combinées en topologies hybrides dans la pratique. Nous examinons ensuite l'apprentissage à collaborer, en abordant l'entraînement des politiques d'acheminement et le développement de capacités coopératives entre les LLMs. Enfin, nous identifions des défis de recherche ouverts, notamment le passage à l'échelle sous hétérogénéité des ressources et l'intelligence collaborative digne de confiance.

English

Large language models (LLMs) are transforming society, powering applications from smartphone assistants to autonomous driving. Yet cloud-based LLM services alone cannot serve a growing class of applications, including those operating under intermittent connectivity, sub-second latency budgets, data-residency constraints, or sustained high-volume inference. On-device deployment is in turn constrained by limited computation and memory. No single endpoint can deliver high-quality service across this spectrum. This article focuses on collaborative intelligence, a paradigm in which multiple independent LLMs distributed across device and cloud endpoints collaborate at the task level through natural language or structured messages. Such collaboration strives for superior response quality under heterogeneous resource constraints spanning computation, memory, communication, and cost across network tiers. We present collaborative inference along two complementary and composable dimensions: vertical device-cloud collaboration and horizontal multi-agent collaboration, which can be combined into hybrid topologies in practice. We then examine learning to collaborate, addressing the training of routing policies and the development of cooperative capabilities among LLMs. Finally, we identify open research challenges including scaling under resource heterogeneity and trustworthy collaborative intelligence.

Grands modèles de langage sur les réseaux : Intelligence collaborative sous contraintes de ressources

Large Language Models over Networks: Collaborative Intelligence under Resource Constraints

Résumé

Support