Kleine Sprachmodelle ermöglichen sofortige Antworten.
Micro Language Models Enable Instant Responses
April 21, 2026
Autoren: Wen Cheng, Tuochao Chen, Karim Helwani, Sriram Srinivasan, Luke Zettlemoyer, Shyamnath Gollakota
cs.AI
Zusammenfassung
Edge-Geräte wie Smartwatches und Smart Glasses können selbst die kleinsten Sprachmodelle mit 100M-1B Parametern aufgrund von Energie- und Rechenbeschränkungen nicht kontinuierlich betreiben, während Cloud-Inferenz Latenzen im Sekundenbereich verursacht, die die Illusion eines responsiven Assistenten zerstören. Wir führen Micro Language Models (μLMs) ein: ultrakompakte Modelle (8M-30M Parameter), die sofort die ersten 4-8 Wörter einer kontextuell fundierten Antwort auf dem Gerät generieren, während ein Cloud-Modell diese vervollständigt und so die Cloud-Latenz maskiert. Wir zeigen, dass nützliche Sprachgeneration in diesem extremen Maßstab möglich ist – unsere Modelle erreichen die Leistung mehrerer existierender Modelle der 70M-256K-Klasse. Wir entwickeln ein Framework für kollaborative Generierung, das das Cloud-Modell als Fortsetzer statt als Antwortgeber konzipiert, nahtlose Übergabe mitten im Satz ermöglicht und strukturierte, graceful recovery durch drei Fehlerkorrekturmethoden bei fehlerhaften lokalen Eröffnungen vorsieht. Empirische Ergebnisse zeigen, dass μLMs Antworten einleiten können, die größere Modelle nahtlos vervollständigen, was demonstriert, dass asymmetrische Kollaboration mit Größenordnungsunterschieden möglich ist und responsive KI für extrem ressourcenbeschränkte Geräte ermöglicht. Der Modell-Checkpoint und eine Demo sind unter https://github.com/Sensente/micro_language_model_swen_project verfügbar.
English
Edge devices such as smartwatches and smart glasses cannot continuously run even the smallest 100M-1B parameter language models due to power and compute constraints, yet cloud inference introduces multi-second latencies that break the illusion of a responsive assistant. We introduce micro language models (μLMs): ultra-compact models (8M-30M parameters) that instantly generate the first 4-8 words of a contextually grounded response on-device, while a cloud model completes it; thus, masking the cloud latency. We show that useful language generation survives at this extreme scale with our models matching several 70M-256M-class existing models. We design a collaborative generation framework that reframes the cloud model as a continuator rather than a respondent, achieving seamless mid-sentence handoffs and structured graceful recovery via three error correction methods when the local opener goes wrong. Empirical results show that μLMs can initiate responses that larger models complete seamlessly, demonstrating that orders-of-magnitude asymmetric collaboration is achievable and unlocking responsive AI for extremely resource-constrained devices. The model checkpoint and demo are available at https://github.com/Sensente/micro_language_model_swen_project.