Les micro-modèles de langage permettent des réponses instantanées
Micro Language Models Enable Instant Responses
April 21, 2026
Auteurs: Wen Cheng, Tuochao Chen, Karim Helwani, Sriram Srinivasan, Luke Zettlemoyer, Shyamnath Gollakota
cs.AI
Résumé
Les dispositifs périphériques tels que les montres intelligentes et les lunettes connectées ne peuvent pas exécuter en continu, même les plus petits modèles de langage de 100M à 1B de paramètres, en raison des contraintes énergétiques et de calcul. Pourtant, l'inférence cloud introduit des latences de plusieurs secondes qui brisent l'illusion d'un assistant réactif. Nous présentons les micro-modèles de langage (μLM) : des modèles ultra-compacts (8M à 30M de paramètres) qui génèrent instantanément les 4 à 8 premiers mots d'une réponse contextuellement ancrée directement sur l'appareil, tandis qu'un modèle cloud en assure l'achèvement, masquant ainsi la latence cloud. Nous démontrons qu'une génération linguistique utile persiste à cette échelle extrême, nos modèles égalant les performances de plusieurs modèles existants de la classe 70M-256M. Nous concevons un cadre de génération collaborative qui repositionne le modèle cloud en tant que continuateur plutôt que répondant, permettant des transferts en milieu de phrase sans heurts et une reprise gracieuse structurée via trois méthodes de correction d'erreur lorsque l'amorce locale échoue. Les résultats empiriques montrent que les μLM peuvent initier des réponses que des modèles plus grands complètent de manière transparente, démontrant qu'une collaboration asymétrique de plusieurs ordres de grandeur est réalisable et ouvrant la voie à une IA réactive pour les dispositifs extrêmement limités en ressources. Le point de contrôle du modèle et une démonstration sont disponibles à l'adresse https://github.com/Sensente/micro_language_model_swen_project.
English
Edge devices such as smartwatches and smart glasses cannot continuously run even the smallest 100M-1B parameter language models due to power and compute constraints, yet cloud inference introduces multi-second latencies that break the illusion of a responsive assistant. We introduce micro language models (μLMs): ultra-compact models (8M-30M parameters) that instantly generate the first 4-8 words of a contextually grounded response on-device, while a cloud model completes it; thus, masking the cloud latency. We show that useful language generation survives at this extreme scale with our models matching several 70M-256M-class existing models. We design a collaborative generation framework that reframes the cloud model as a continuator rather than a respondent, achieving seamless mid-sentence handoffs and structured graceful recovery via three error correction methods when the local opener goes wrong. Empirical results show that μLMs can initiate responses that larger models complete seamlessly, demonstrating that orders-of-magnitude asymmetric collaboration is achievable and unlocking responsive AI for extremely resource-constrained devices. The model checkpoint and demo are available at https://github.com/Sensente/micro_language_model_swen_project.