ChatPaper.aiChatPaper

UniQL: 에지 LLM 적응을 위한 통합 양자화 및 저랭크 압축

UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs

December 3, 2025
저자: Hung-Yueh Chiang, Chi-Chih Chang, Yu-Chen Lu, Chien-Yu Lin, Kai-Chiang Wu, Mohamed S. Abdelfattah, Diana Marculescu
cs.AI

초록

대규모 언어 모델(LLM)을 모바일 플랫폼에 배포하는 것은 기기의 제한된 메모리와 공유 컴퓨팅 자원으로 인해 상당한 어려움에 직면합니다. 자원 가용성은 현재 기기 작업 부하에 직접적인 영향을 받아 문제가 될 수 있으며, 이는 모델 배포의 불확실성을 가중시킵니다. 본 논문에서는 에지 LLM을 위한 온디바이스 구성 가능 프루닝 비율을 지원하는 통합 사후 양자화 및 저랭크 압축 프레임워크인 UniQL을 소개합니다. UniQL은 양자화와 저랭크 압축을 통합하여 Transformer, 상태 공간 모델(SSM), 그리고 하이브리드 모델에 적용 가능한 일반적인 프레임워크로, 다양한 에지 애플리케이션을 지원합니다. 제안하는 통합 프레임워크에서는 계산 속도를 20배 향상시키는 효율적인 구조화된 가중치 정렬 방법, 양자화 오류를 최소화하는 양자화 인식 특이값 분해(SVD), SSM을 위한 상태 인식 가중치 정렬, 그리고 프루닝된 모델을 위한 융합된 회전 위치 임베딩(RoPE) 커널을 도입했습니다. 본 프레임워크는 단일 패스 워크플로우로 클라우드에서 가중치 정렬, 미세 조정, 양자화를 수행하면서도 최대 35%까지 온디바이스에서 구성 가능한 프루닝 비율을 지원합니다. 실험 결과, 양자화 및 프루닝된 모델은 Transformer(Llama3, Qwen2.5), SSM(Mamba2), 하이브리드 모델(Nemotron-H, Bamba-v2)에 걸쳐 4x-5.7x의 메모리 감소와 2.7x-3.4x의 토큰 처리량 향상을 달성했으며, 15% 프루닝 수준에서 원본 모델 대비 정확도를 5% 이내로 유지했습니다. 코드와 양자화된 모델은 https://github.com/enyac-group/UniQL 에서 이용 가능합니다.
English
Deploying large language model (LLM) models on mobile platforms faces significant challenges due to the limited memory and shared computational resources of the device. Resource availability may be an issue as it is directly impacted by the current device workload, adding to the uncertainty of model deployment. We introduce UniQL, a unified post-training quantization and low-rank compression framework with on-device configurable pruning rates for edge LLMs. UniQL is a general framework that integrates quantization and low-rank compression for Transformers, State Space Models (SSMs), and hybrid models to support diverse edge applications. In our proposed joint framework, we introduce an efficient structured weight-sorting method that speeds up computation by 20x, quantization-aware singular value decomposition (SVD) to minimize quantization errors, state-aware weight sorting for SSMs, and a fused rotary positional embedding (RoPE) kernel for pruned models. Our framework performs weight-sorting, fine-tuning, and quantization in the cloud in a single-pass workflow, while enabling on-device configurable pruning rates up to 35%. Our experiments show that quantized and pruned models achieve a memory reduction of 4x-5.7x and a token-throughput improvement of 2.7x-3.4x, maintaining accuracy within 5% of the original models at 15% pruning across Transformers (Llama3 and Qwen2.5), SSMs (Mamba2), and hybrid models (Nemotron-H and Bamba-v2). The code and quantized models are available at: https://github.com/enyac-group/UniQL.
PDF21December 5, 2025