Micromodelos de Linguagem Permitem Respostas Instantâneas
Micro Language Models Enable Instant Responses
April 21, 2026
Autores: Wen Cheng, Tuochao Chen, Karim Helwani, Sriram Srinivasan, Luke Zettlemoyer, Shyamnath Gollakota
cs.AI
Resumo
Dispositivos de borda como smartwatches e óculos inteligentes não conseguem executar continuamente nem mesmo os menores modelos de linguagem com 100M-1B de parâmetros devido a restrições de energia e computação. No entanto, a inferência na nuvem introduz latências de vários segundos que quebram a ilusão de um assistente responsivo. Introduzimos os micro modelos de linguagem (μLMs): modelos ultracompactos (8M-30M de parâmetros) que geram instantaneamente as primeiras 4-8 palavras de uma resposta contextualmente fundamentada no próprio dispositivo, enquanto um modelo na nuvem a completa; mascarando assim a latência da nuvem. Mostramos que a geração de linguagem útil sobrevive nesta escala extrema, com nossos modelos equiparando-se a vários modelos existentes da classe de 70M-256M de parâmetros. Projetamos uma estrutura de geração colaborativa que reformula o modelo na nuvem como um continuador, e não um respondedor, alcançando transições suaves no meio da frase e uma recuperação estruturada e graciosa por meio de três métodos de correção de erro quando a abertura local falha. Resultados empíricos mostram que os μLMs podem iniciar respostas que modelos maiores completam de forma contínua, demonstrando que uma colaboração assimétrica de ordens de magnitude é alcançável e liberando a IA responsiva para dispositivos extremamente limitados em recursos. O *checkpoint* do modelo e a demonstração estão disponíveis em https://github.com/Sensente/micro_language_model_swen_project.
English
Edge devices such as smartwatches and smart glasses cannot continuously run even the smallest 100M-1B parameter language models due to power and compute constraints, yet cloud inference introduces multi-second latencies that break the illusion of a responsive assistant. We introduce micro language models (μLMs): ultra-compact models (8M-30M parameters) that instantly generate the first 4-8 words of a contextually grounded response on-device, while a cloud model completes it; thus, masking the cloud latency. We show that useful language generation survives at this extreme scale with our models matching several 70M-256M-class existing models. We design a collaborative generation framework that reframes the cloud model as a continuator rather than a respondent, achieving seamless mid-sentence handoffs and structured graceful recovery via three error correction methods when the local opener goes wrong. Empirical results show that μLMs can initiate responses that larger models complete seamlessly, demonstrating that orders-of-magnitude asymmetric collaboration is achievable and unlocking responsive AI for extremely resource-constrained devices. The model checkpoint and demo are available at https://github.com/Sensente/micro_language_model_swen_project.