MeKi: 효율적인 LLM 확장을 위한 메모리 기반 전문가 지식 주입
MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling
February 3, 2026
저자: Ning Ding, Fangcheng Liu, Kyungrae Kim, Linji Hao, Kyeng-Hun Lee, Hyeonmok Ko, Yehui Tang
cs.AI
초록
대규모 언어 모델(LLM)의 규모 확장은 일반적으로 매개변수 수나 테스트 시 연산량을 증가시켜 성능을 향상시키는 방식에 의존합니다. 그러나 이러한 전략은 제한된 RAM 및 NPU 자원으로 인해 에지 기기 배포에는 실용적이지 않습니다. 하드웨어 제약에도 불구하고, 스마트폰과 같은 에지 기기에 성능이 우수한 LLM을 배치하는 것은 사용자 경험에 있어 여전히 중요합니다. 이를 해결하기 위해 우리는 FLOPs가 아닌 저장 공간을 통해 LLM 용량을 확장하는 새로운 시스템인 MeKi(Memory-based Expert Knowledge Injection)를 제안합니다. MeKi는 각 Transformer 계층에 토큰 수준 메모리 전문가를 장착하여 생성 과정에 사전 저장된 의미론적 지식을 주입합니다. 학습 용량과 추론 효율성 간의 격차를 해소하기 위해, 우리는 학습 시 사용된 매개변수 행렬을 간결한 정적 조회 테이블로 접어 넣는 재매개변수화 전략을 사용합니다. MeKi는 지식을 ROM으로 오프로딩함으로써 모델 용량과 계산 비용을 분리하며, 추론 지연 시간 오버헤드를 제로로 유지합니다. 다양한 실험을 통해 MeKi가 동일한 추론 속도를 가진 조밀한 LLM 기준선을 크게 능가함을 입증하여, 온디바이스 LLM을 위한 메모리 기반 규모 확장 패러다임의 효과성을 검증했습니다. 프로젝트 홈페이지는 https://github.com/ningding-o/MeKi 에서 확인할 수 있습니다.
English
Scaling Large Language Models (LLMs) typically relies on increasing the number of parameters or test-time computations to boost performance. However, these strategies are impractical for edge device deployment due to limited RAM and NPU resources. Despite hardware constraints, deploying performant LLM on edge devices such as smartphone remains crucial for user experience. To address this, we propose MeKi (Memory-based Expert Knowledge Injection), a novel system that scales LLM capacity via storage space rather than FLOPs. MeKi equips each Transformer layer with token-level memory experts that injects pre-stored semantic knowledge into the generation process. To bridge the gap between training capacity and inference efficiency, we employ a re-parameterization strategy to fold parameter matrices used during training into a compact static lookup table. By offloading the knowledge to ROM, MeKi decouples model capacity from computational cost, introducing zero inference latency overhead. Extensive experiments demonstrate that MeKi significantly outperforms dense LLM baselines with identical inference speed, validating the effectiveness of memory-based scaling paradigm for on-device LLMs. Project homepage is at https://github.com/ningding-o/MeKi.