I Micro Modelli Linguistici Abilitano Risposte Istantanee
Micro Language Models Enable Instant Responses
April 21, 2026
Autori: Wen Cheng, Tuochao Chen, Karim Helwani, Sriram Srinivasan, Luke Zettlemoyer, Shyamnath Gollakota
cs.AI
Abstract
I dispositivi edge come smartwatch e occhiali intelligenti non possono eseguire continuamente nemmeno i più piccoli modelli linguistici da 100M-1B di parametri a causa dei vincoli di potenza e capacità computazionale, mentre l'inferenza cloud introduce latenze di diversi secondi che compromettono l'illusione di un assistente reattivo. Introduciamo i micro modelli linguistici (μLM): modelli ultra-compatti (8M-30M di parametri) che generano istantaneamente le prime 4-8 parole di una risposta contestualmente fondata sul dispositivo, mentre un modello cloud la completa, mascherando così la latenza cloud. Dimostriamo che la generazione linguistica utile sopravvive a questa scala estrema, con i nostri modelli che eguagliano le prestazioni di diversi modelli esistenti della classe 70M-256M. Progettiamo un framework di generazione collaborativa che riformula il modello cloud come un continuatore piuttosto che un risponditore, raggiungendo passaggi di consegna a metà frase senza soluzione di continuità e un recupero strutturato elegante tramite tre metodi di correzione degli errori quando l'apertura locale va male. I risultati empirici mostrano che i μLMs possono avviare risposte che modelli più grandi completano perfettamente, dimostrando che la collaborazione asimmetrica di ordini di grandezza è realizzabile e sbloccando l'IA reattiva per dispositivi estremamente limitati in risorse. Il checkpoint del modello e la demo sono disponibili all'indirizzo https://github.com/Sensente/micro_language_model_swen_project.
English
Edge devices such as smartwatches and smart glasses cannot continuously run even the smallest 100M-1B parameter language models due to power and compute constraints, yet cloud inference introduces multi-second latencies that break the illusion of a responsive assistant. We introduce micro language models (μLMs): ultra-compact models (8M-30M parameters) that instantly generate the first 4-8 words of a contextually grounded response on-device, while a cloud model completes it; thus, masking the cloud latency. We show that useful language generation survives at this extreme scale with our models matching several 70M-256M-class existing models. We design a collaborative generation framework that reframes the cloud model as a continuator rather than a respondent, achieving seamless mid-sentence handoffs and structured graceful recovery via three error correction methods when the local opener goes wrong. Empirical results show that μLMs can initiate responses that larger models complete seamlessly, demonstrating that orders-of-magnitude asymmetric collaboration is achievable and unlocking responsive AI for extremely resource-constrained devices. The model checkpoint and demo are available at https://github.com/Sensente/micro_language_model_swen_project.