ChatPaper.aiChatPaper

초소형 언어 모델을 통한 즉각적 응답 가능

Micro Language Models Enable Instant Responses

April 21, 2026
저자: Wen Cheng, Tuochao Chen, Karim Helwani, Sriram Srinivasan, Luke Zettlemoyer, Shyamnath Gollakota
cs.AI

초록

스마트워치와 스마트 글래스 같은 엣지 디바이스는 전력 및 컴퓨팅 성능의 제약으로 100M-1B 매개변수 규모의 가장 작은 언어 모델도 지속적으로 구동할 수 없으며, 클라우드 추론은 수 초에 이르는 지연 시간을 초래하여 반응형 어시스턴트의 경험을 해칩니다. 본 논문은 마이크로 언어 모델(μLM)을 소개합니다. μLMs는 초소형 모델(8M-30M 매개변수)로, 컨텍스트에 기반한 응답의 첫 4-8단어를 디바이스에서 즉시 생성하는 동시에 클라우드 모델이 응답을 완성하여 클라우드 지연 시간을 효과적으로 가립니다. 우리는 이 극한의 축소 규모에서도 유용한 언어 생성 능력이 유지됨을 보여주며, 우리 모델이 기존 70M-256M급 모델 여러 개와 성능을 맞섰습니다. 또한 클라우드 모델을 응답 생성기가 아닌 *연속자*로 재정의하는 협력 생성 프레임워크를 설계하여, 문장 중간에 매끄러운 작업 인계와 로컬 개시 응답이 잘못되었을 때 3가지 오류 수정 방법을 통한 구조적인 우아한 복구를 달성했습니다. 실험 결과, μLMs가 더 큰 모델이 매끄럽게 완성할 수 있는 응답을 시작할 수 있음을 보여주며, 이는 수준 차이가 큰 비대칭 협력이 가능함을 입증하고 극한의 자원 제약을 가진 디바이스에 반응형 AI를 구현할 길을 열어줍니다. 모델 체크포인트와 데모는 https://github.com/Sensente/micro_language_model_swen_project에서 이용할 수 있습니다.
English
Edge devices such as smartwatches and smart glasses cannot continuously run even the smallest 100M-1B parameter language models due to power and compute constraints, yet cloud inference introduces multi-second latencies that break the illusion of a responsive assistant. We introduce micro language models (μLMs): ultra-compact models (8M-30M parameters) that instantly generate the first 4-8 words of a contextually grounded response on-device, while a cloud model completes it; thus, masking the cloud latency. We show that useful language generation survives at this extreme scale with our models matching several 70M-256M-class existing models. We design a collaborative generation framework that reframes the cloud model as a continuator rather than a respondent, achieving seamless mid-sentence handoffs and structured graceful recovery via three error correction methods when the local opener goes wrong. Empirical results show that μLMs can initiate responses that larger models complete seamlessly, demonstrating that orders-of-magnitude asymmetric collaboration is achievable and unlocking responsive AI for extremely resource-constrained devices. The model checkpoint and demo are available at https://github.com/Sensente/micro_language_model_swen_project.
PDF11April 23, 2026