Grandes Modelos de Lenguaje a través de Redes: Inteligencia Colaborativa bajo Restricciones de Recursos

Resumen

Los modelos de lenguaje de gran escala (LLMs) están transformando la sociedad, impulsando aplicaciones que van desde asistentes en teléfonos inteligentes hasta la conducción autónoma. Sin embargo, los servicios de LLM basados únicamente en la nube no pueden satisfacer una creciente clase de aplicaciones, incluidas aquellas que operan bajo conectividad intermitente, presupuestos de latencia de menos de un segundo, restricciones de residencia de datos o inferencia sostenida de alto volumen. A su vez, la implementación en el dispositivo está limitada por la computación y memoria reducidas. Ningún punto final único puede ofrecer un servicio de alta calidad a lo largo de este espectro. Este artículo se centra en la inteligencia colaborativa, un paradigma en el que múltiples LLMs independientes distribuidos entre puntos finales de dispositivos y la nube colaboran a nivel de tarea mediante lenguaje natural o mensajes estructurados. Dicha colaboración busca una calidad de respuesta superior bajo restricciones heterogéneas de recursos que abarcan computación, memoria, comunicación y costo en los distintos niveles de la red. Presentamos la inferencia colaborativa a lo largo de dos dimensiones complementarias y componibles: la colaboración vertical dispositivo-nube y la colaboración horizontal multiagente, las cuales pueden combinarse en topologías híbridas en la práctica. A continuación, examinamos el aprendizaje para colaborar, abordando el entrenamiento de políticas de enrutamiento y el desarrollo de capacidades cooperativas entre los LLMs. Finalmente, identificamos desafíos de investigación abiertos, incluyendo el escalamiento bajo heterogeneidad de recursos y la inteligencia colaborativa confiable.

English

Large language models (LLMs) are transforming society, powering applications from smartphone assistants to autonomous driving. Yet cloud-based LLM services alone cannot serve a growing class of applications, including those operating under intermittent connectivity, sub-second latency budgets, data-residency constraints, or sustained high-volume inference. On-device deployment is in turn constrained by limited computation and memory. No single endpoint can deliver high-quality service across this spectrum. This article focuses on collaborative intelligence, a paradigm in which multiple independent LLMs distributed across device and cloud endpoints collaborate at the task level through natural language or structured messages. Such collaboration strives for superior response quality under heterogeneous resource constraints spanning computation, memory, communication, and cost across network tiers. We present collaborative inference along two complementary and composable dimensions: vertical device-cloud collaboration and horizontal multi-agent collaboration, which can be combined into hybrid topologies in practice. We then examine learning to collaborate, addressing the training of routing policies and the development of cooperative capabilities among LLMs. Finally, we identify open research challenges including scaling under resource heterogeneity and trustworthy collaborative intelligence.

Grandes Modelos de Lenguaje a través de Redes: Inteligencia Colaborativa bajo Restricciones de Recursos

Large Language Models over Networks: Collaborative Intelligence under Resource Constraints

Resumen

Support