Los Micro Modelos de Lenguaje Posibilitan Respuestas Instantáneas
Micro Language Models Enable Instant Responses
April 21, 2026
Autores: Wen Cheng, Tuochao Chen, Karim Helwani, Sriram Srinivasan, Luke Zettlemoyer, Shyamnath Gollakota
cs.AI
Resumen
Los dispositivos periféricos como los relojes inteligentes y las gafas inteligentes no pueden ejecutar de forma continua ni siquiera los modelos de lenguaje más pequeños (100M-1B de parámetros) debido a limitaciones de energía y capacidad de cómputo. Sin embargo, la inferencia en la nube introduce latencias de varios segundos que rompen la ilusión de un asistente receptivo. Presentamos los micro modelos de lenguaje (μLM): modelos ultracompactos (8M-30M de parámetros) que generan instantáneamente las primeras 4-8 palabras de una respuesta contextualmente fundamentada en el dispositivo, mientras un modelo en la nube la completa, enmascarando así la latencia de la nube. Demostramos que la generación útil de lenguaje sobrevive a esta escala extrema, ya que nuestros modelos igualan el rendimiento de varios modelos existentes de la clase de 70M-256M de parámetros. Diseñamos un marco de generación colaborativa que replantea el modelo en la nube como un continuador en lugar de un respondedor, logrando transferencias fluidas a mitad de frase y una recuperación estructurada y elegante mediante tres métodos de corrección de errores cuando la apertura local falla. Los resultados empíricos muestran que los μLMs pueden iniciar respuestas que los modelos más grandes completan de forma imperceptible, demostrando que la colaboración asimétrica de órdenes de magnitud es alcanzable y desbloqueando la IA receptiva para dispositivos extremadamente limitados en recursos. El checkpoint del modelo y la demo están disponibles en https://github.com/Sensente/micro_language_model_swen_project.
English
Edge devices such as smartwatches and smart glasses cannot continuously run even the smallest 100M-1B parameter language models due to power and compute constraints, yet cloud inference introduces multi-second latencies that break the illusion of a responsive assistant. We introduce micro language models (μLMs): ultra-compact models (8M-30M parameters) that instantly generate the first 4-8 words of a contextually grounded response on-device, while a cloud model completes it; thus, masking the cloud latency. We show that useful language generation survives at this extreme scale with our models matching several 70M-256M-class existing models. We design a collaborative generation framework that reframes the cloud model as a continuator rather than a respondent, achieving seamless mid-sentence handoffs and structured graceful recovery via three error correction methods when the local opener goes wrong. Empirical results show that μLMs can initiate responses that larger models complete seamlessly, demonstrating that orders-of-magnitude asymmetric collaboration is achievable and unlocking responsive AI for extremely resource-constrained devices. The model checkpoint and demo are available at https://github.com/Sensente/micro_language_model_swen_project.