HyperVL: 엣지 디바이스를 위한 효율적이고 동적인 멀티모달 대규모 언어 모델
HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices
December 16, 2025
저자: HyperAI Team, Yuchen Liu, Kaiyang Han, Zhiqiang Xia, Yuhang Dong, Chen Song, Kangyu Tang, Jiaming Xu, Xiushi Feng, WenXuan Yu, Li Peng, Mingyang Wang, Kai Wang, Changpeng Yang, Yang Li, Haoyu Lu, Hao Wang, Bingna Xu, Guangyao Liu, Long Huang, Kaibin Guo, Jinyang Wu, Dan Wu, Hongzhen Wang, Peng Zhou, Shuai Nie, Shande Wang, Runyu Shi, Ying Huang
cs.AI
초록
현재의 멀티모달 대규모 언어 모델은 강력한 인지 및 추론 능력을 보유하고 있으나, 높은 계산 및 메모리 요구량으로 인해 온디바이스 환경에 직접 배포하기 어렵습니다. 소규모 매개변수 모델들이 점차 강력한 일반 능력을 갖추게 되었지만, 표준 Vision Transformer(ViT) 인코더는 여전히 중요한 병목 현상으로 남아 고해상도 입력 처리 시 과도한 지연 시간과 메모리 소비를 겪고 있습니다. 이러한 문제를 해결하기 위해 본 연구에서는 온디바이스 추론에 특화된 효율적인 멀티모달 대규모 언어 모델인 HyperVL을 제안합니다. HyperVL은 이미지 타일링 전략을 통해 최대 메모리 사용량을 제한하고 두 가지 새로운 기술을 도입합니다: (1) 중복 계산을 제거하기 위해 최적의 인코딩 해상도를 적응적으로 예측하는 Visual Resolution Compressor(VRC)와 (2) 공유 LLM 하에서 시각적 브랜치 간 동적 전환을 가능하게 하는 통합 프레임워크 내에서 다중 스케일 ViT 인코더를 정렬하는 Dual Consistency Learning(DCL)입니다. 광범위한 실험을 통해 HyperVL이 다양한 벤치마크에서 동일 규모 모델 중 최첨단 성능을 달성함을 입증했습니다. 더 나아가 실제 모바일 기기에서 지연 시간과 전력 소비를 현저히 감소시켜 온디바이스 멀티모달 추론의 실용성을 입증했습니다.
English
Current multimodal large lanauge models possess strong perceptual and reasoning capabilities, however high computational and memory requirements make them difficult to deploy directly on on-device environments. While small-parameter models are progressively endowed with strong general capabilities, standard Vision Transformer (ViT) encoders remain a critical bottleneck, suffering from excessive latency and memory consumption when processing high-resolution inputs.To address these challenges, we introduce HyperVL, an efficient multimodal large language model tailored for on-device inference. HyperVL adopts an image-tiling strategy to cap peak memory usage and incorporates two novel techniques: (1) a Visual Resolution Compressor (VRC) that adaptively predicts optimal encoding resolutions to eliminate redundant computation, and (2) Dual Consistency Learning (DCL), which aligns multi-scale ViT encoders within a unified framework, enabling dynamic switching between visual branches under a shared LLM. Extensive experiments demonstrate that HyperVL achieves state-of-the-art performance among models of comparable size across multiple benchmarks. Furthermore, it significantly significantly reduces latency and power consumption on real mobile devices, demonstrating its practicality for on-device multimodal inference.