HyperVL: Een efficiënt en dynamisch multimodaal groot taalmodel voor edge-apparaten
HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices
December 16, 2025
Auteurs: HyperAI Team, Yuchen Liu, Kaiyang Han, Zhiqiang Xia, Yuhang Dong, Chen Song, Kangyu Tang, Jiaming Xu, Xiushi Feng, WenXuan Yu, Li Peng, Mingyang Wang, Kai Wang, Changpeng Yang, Yang Li, Haoyu Lu, Hao Wang, Bingna Xu, Guangyao Liu, Long Huang, Kaibin Guo, Jinyang Wu, Dan Wu, Hongzhen Wang, Peng Zhou, Shuai Nie, Shande Wang, Runyu Shi, Ying Huang
cs.AI
Samenvatting
Huidige multimodale grote taalmodellen beschikken over sterke waarnemings- en redeneervermogens, maar hoge reken- en geheugeneisen maken directe implementatie in on-device omgevingen lastig. Hoewel kleinere modellen geleidelijk worden uitgerust met sterke algemene capaciteiten, blijven standaard Vision Transformer (ViT)-encoders een kritieke knelpunt, met excessieve latentie en geheugenverbruik bij het verwerken van hoogresolutie-invoeren. Om deze uitdagingen aan te pakken, introduceren we HyperVL, een efficiënt multimodaal groot taalmodel toegesneden op on-device inferentie. HyperVL hanteert een image-tiling strategie om piekgeheugengebruik te begrenzen en bevat twee nieuwe technieken: (1) een Visuele Resolutie Compressor (VRC) die adaptief optimale coderingsresoluties voorspelt om redundante berekeningen te elimineren, en (2) Dual Consistency Learning (DCL), dat multi-scale ViT-encoders uitlijnt binnen een uniform raamwerk, waardoor dynamisch schakelen tussen visuele takken onder een gedeelde LLM mogelijk wordt. Uitgebreide experimenten tonen aan dat HyperVL state-of-the-art prestaties bereikt onder modellen van vergelijkbare grootte op meerdere benchmarks. Bovendien vermindert het latentie en stroomverbruik aanzienlijk op echte mobiele apparaten, wat de praktische bruikbaarheid voor on-device multimodale inferentie aantoont.
English
Current multimodal large lanauge models possess strong perceptual and reasoning capabilities, however high computational and memory requirements make them difficult to deploy directly on on-device environments. While small-parameter models are progressively endowed with strong general capabilities, standard Vision Transformer (ViT) encoders remain a critical bottleneck, suffering from excessive latency and memory consumption when processing high-resolution inputs.To address these challenges, we introduce HyperVL, an efficient multimodal large language model tailored for on-device inference. HyperVL adopts an image-tiling strategy to cap peak memory usage and incorporates two novel techniques: (1) a Visual Resolution Compressor (VRC) that adaptively predicts optimal encoding resolutions to eliminate redundant computation, and (2) Dual Consistency Learning (DCL), which aligns multi-scale ViT encoders within a unified framework, enabling dynamic switching between visual branches under a shared LLM. Extensive experiments demonstrate that HyperVL achieves state-of-the-art performance among models of comparable size across multiple benchmarks. Furthermore, it significantly significantly reduces latency and power consumption on real mobile devices, demonstrating its practicality for on-device multimodal inference.