Microtaalmodellen Maken Directe Reacties Mogelijk
Micro Language Models Enable Instant Responses
April 21, 2026
Auteurs: Wen Cheng, Tuochao Chen, Karim Helwani, Sriram Srinivasan, Luke Zettlemoyer, Shyamnath Gollakota
cs.AI
Samenvatting
Edge-apparaten zoals smartwatches en slimme brillen kunnen zelfs de kleinste taalmodellen van 100M-1B parameters niet continu draaien vanwege beperkingen in stroomverbruik en rekenkracht, terwijl cloud-inferentie vertragingen van meerdere seconden introduceert die de illusie van een responsieve assistent doorbreken. Wij introduceren micro-taalmodellen (μLMs): ultracompacte modellen (8M-30M parameters) die onmiddellijk de eerste 4-8 woorden van een contextueel onderbouwde reactie op het apparaat zelf genereren, terwijl een cloud-model deze voltooit; zo wordt de cloud-latentie gemaskeerd. Wij tonen aan dat nuttige taalgeneratie op deze extreme schaal mogelijk blijft, waarbij onze modellen presteren op het niveau van verschillende bestaande modellen in de klasse van 70M-256M parameters. Wij ontwerpen een collaboratief generatieraamwerk dat het cloud-model herdefinieert als een *continuator* in plaats van een respondent, waardoor naadloze overdrachten midden in een zin mogelijk worden en gestructureerd herstel via drie foutcorrectiemethoden wanneer de lokale opening misgaat. Empirische resultaten tonen aan dat μLMs reacties kunnen initiëren die grotere modellen naadloos voltooien, wat aantoont dat collaboratie met ordes-van-grootte asymmetrie haalbaar is en responsieve AI ontsluit voor extreem resource-beperkte apparaten. Het modelcheckpoint en een demo zijn beschikbaar op https://github.com/Sensente/micro_language_model_swen_project.
English
Edge devices such as smartwatches and smart glasses cannot continuously run even the smallest 100M-1B parameter language models due to power and compute constraints, yet cloud inference introduces multi-second latencies that break the illusion of a responsive assistant. We introduce micro language models (μLMs): ultra-compact models (8M-30M parameters) that instantly generate the first 4-8 words of a contextually grounded response on-device, while a cloud model completes it; thus, masking the cloud latency. We show that useful language generation survives at this extreme scale with our models matching several 70M-256M-class existing models. We design a collaborative generation framework that reframes the cloud model as a continuator rather than a respondent, achieving seamless mid-sentence handoffs and structured graceful recovery via three error correction methods when the local opener goes wrong. Empirical results show that μLMs can initiate responses that larger models complete seamlessly, demonstrating that orders-of-magnitude asymmetric collaboration is achievable and unlocking responsive AI for extremely resource-constrained devices. The model checkpoint and demo are available at https://github.com/Sensente/micro_language_model_swen_project.