Микромодели языков обеспечивают мгновенные ответы

Аннотация

Периферийные устройства, такие как умные часы и умные очки, не могут непрерывно выполнять даже самые малые языковые модели с 100 млн - 1 млрд параметров из-за ограничений по энергопотреблению и вычислительным ресурсам, в то время как облачный вывод вносит задержки в несколько секунд, что разрушает иллюзию отзывчивого помощника. Мы представляем микромодели языка (μLM): сверхкомпактные модели (8-30 млн параметров), которые мгновенно генерируют первые 4-8 слов контекстуально обоснованного ответа непосредственно на устройстве, в то время как облачная модель завершает его, маскируя таким образом облачную задержку. Мы показываем, что полезная языковая генерация сохраняется и в этом экстремальном масштабе: наши модели соответствуют по качеству нескольким существующим моделям класса 70-256 млн параметров. Мы разработали фреймворк совместной генерации, который переосмысливает облачную модель как продолжателя, а не ответчика, достигая бесшовной передачи управления в середине предложения и структурированного изящного восстановления с помощью трех методов коррекции ошибок в случае неудачного локального начала. Эмпирические результаты показывают, что μLM способны инициировать ответы, которые более крупные модели бесшовно завершают, демонстрируя достижимость асимметричной коллаборации на порядки величин и открывая путь к отзывчивому ИИ для устройств с крайне ограниченными ресурсами. Чекпоинт модели и демо доступны по адресу https://github.com/Sensente/micro_language_model_swen_project.

English

Edge devices such as smartwatches and smart glasses cannot continuously run even the smallest 100M-1B parameter language models due to power and compute constraints, yet cloud inference introduces multi-second latencies that break the illusion of a responsive assistant. We introduce micro language models (μLMs): ultra-compact models (8M-30M parameters) that instantly generate the first 4-8 words of a contextually grounded response on-device, while a cloud model completes it; thus, masking the cloud latency. We show that useful language generation survives at this extreme scale with our models matching several 70M-256M-class existing models. We design a collaborative generation framework that reframes the cloud model as a continuator rather than a respondent, achieving seamless mid-sentence handoffs and structured graceful recovery via three error correction methods when the local opener goes wrong. Empirical results show that μLMs can initiate responses that larger models complete seamlessly, demonstrating that orders-of-magnitude asymmetric collaboration is achievable and unlocking responsive AI for extremely resource-constrained devices. The model checkpoint and demo are available at https://github.com/Sensente/micro_language_model_swen_project.

Микромодели языков обеспечивают мгновенные ответы

Micro Language Models Enable Instant Responses

Аннотация

Support