HyperVL: un modello linguistico multimodale grande, efficiente e dinamico per dispositivi edge
HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices
December 16, 2025
Autori: HyperAI Team, Yuchen Liu, Kaiyang Han, Zhiqiang Xia, Yuhang Dong, Chen Song, Kangyu Tang, Jiaming Xu, Xiushi Feng, WenXuan Yu, Li Peng, Mingyang Wang, Kai Wang, Changpeng Yang, Yang Li, Haoyu Lu, Hao Wang, Bingna Xu, Guangyao Liu, Long Huang, Kaibin Guo, Jinyang Wu, Dan Wu, Hongzhen Wang, Peng Zhou, Shuai Nie, Shande Wang, Runyu Shi, Ying Huang
cs.AI
Abstract
Gli attuali modelli linguistici multimodali di grandi dimensioni possiedono forti capacità percettive e di ragionamento, tuttavia gli elevati requisiti computazionali e di memoria ne rendono difficile il deployment diretto su ambienti embedded. Sebbene i modelli con pochi parametri stiano progressivamente acquisendo solide capacità generali, gli encoder Vision Transformer (ViT) standard rimangono un collo di bottiglia critico, soffrendo di latenza eccessiva e consumo di memoria elevato durante l'elaborazione di input ad alta risoluzione. Per affrontare queste sfide, presentiamo HyperVL, un modello linguistico multimodale efficiente ottimizzato per l'inferenza on-device. HyperVL adotta una strategia di image-tiling per limitare il picco di utilizzo della memoria e incorpora due tecniche innovative: (1) un Visual Resolution Compressor (VRC) che predice adattivamente le risoluzioni di codifica ottimali per eliminare il calcolo ridondante, e (2) il Dual Consistency Learning (DCL), che allinea encoder ViT multi-scala in un framework unificato, consentendo commutazione dinamica tra branch visivi sotto un unico LLM condiviso. Esperimenti estensivi dimostrano che HyperVL raggiunge prestazioni state-of-the-art tra modelli di dimensioni comparabili su molteplici benchmark. Inoltre, riduce significativamente la latenza e il consumo energetico su dispositivi mobili reali, dimostrandone la praticità per l'inferenza multimodale on-device.
English
Current multimodal large lanauge models possess strong perceptual and reasoning capabilities, however high computational and memory requirements make them difficult to deploy directly on on-device environments. While small-parameter models are progressively endowed with strong general capabilities, standard Vision Transformer (ViT) encoders remain a critical bottleneck, suffering from excessive latency and memory consumption when processing high-resolution inputs.To address these challenges, we introduce HyperVL, an efficient multimodal large language model tailored for on-device inference. HyperVL adopts an image-tiling strategy to cap peak memory usage and incorporates two novel techniques: (1) a Visual Resolution Compressor (VRC) that adaptively predicts optimal encoding resolutions to eliminate redundant computation, and (2) Dual Consistency Learning (DCL), which aligns multi-scale ViT encoders within a unified framework, enabling dynamic switching between visual branches under a shared LLM. Extensive experiments demonstrate that HyperVL achieves state-of-the-art performance among models of comparable size across multiple benchmarks. Furthermore, it significantly significantly reduces latency and power consumption on real mobile devices, demonstrating its practicality for on-device multimodal inference.