HyperVL : Un modèle de langage multimodal efficace et dynamique pour les dispositifs périphériques
HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices
December 16, 2025
papers.authors: HyperAI Team, Yuchen Liu, Kaiyang Han, Zhiqiang Xia, Yuhang Dong, Chen Song, Kangyu Tang, Jiaming Xu, Xiushi Feng, WenXuan Yu, Li Peng, Mingyang Wang, Kai Wang, Changpeng Yang, Yang Li, Haoyu Lu, Hao Wang, Bingna Xu, Guangyao Liu, Long Huang, Kaibin Guo, Jinyang Wu, Dan Wu, Hongzhen Wang, Peng Zhou, Shuai Nie, Shande Wang, Runyu Shi, Ying Huang
cs.AI
papers.abstract
Les modèles multimodaux de grande taille actuels possèdent d'excellentes capacités perceptives et de raisonnement, mais leurs exigences élevées en calcul et en mémoire rendent leur déploiement direct sur des environnements embarqués difficile. Bien que les modèles à petit nombre de paramètres acquièrent progressivement de solides capacités générales, les encodeurs Vision Transformer (ViT) standard restent un goulot d'étranglement critique, souffrant d'une latence excessive et d'une consommation mémoire élevée lors du traitement d'entrées haute résolution. Pour relever ces défis, nous présentons HyperVL, un modèle multimodal de grande langue efficace spécialement conçu pour l'inférence embarquée. HyperVL adopte une stratégie de découpage d'image pour plafonner l'utilisation mémoire maximale et intègre deux techniques novatrices : (1) un Compresseur de Résolution Visuelle (VRC) qui prédit adaptativement les résolutions d'encodage optimales pour éliminer les calculs redondants, et (2) l'Apprentissage de Double Cohérence (DCL), qui aligne les encodeurs ViT multi-échelles dans un cadre unifié, permettant une commutation dynamique entre les branches visuelles sous un même LLM partagé. Des expériences approfondies démontrent qu'HyperVL atteint des performances à la pointe parmi les modèles de taille comparable sur plusieurs benchmarks. De plus, il réduit significativement la latence et la consommation énergétique sur des appareils mobiles réels, démontrant son utilité pratique pour l'inférence multimodale embarquée.
English
Current multimodal large lanauge models possess strong perceptual and reasoning capabilities, however high computational and memory requirements make them difficult to deploy directly on on-device environments. While small-parameter models are progressively endowed with strong general capabilities, standard Vision Transformer (ViT) encoders remain a critical bottleneck, suffering from excessive latency and memory consumption when processing high-resolution inputs.To address these challenges, we introduce HyperVL, an efficient multimodal large language model tailored for on-device inference. HyperVL adopts an image-tiling strategy to cap peak memory usage and incorporates two novel techniques: (1) a Visual Resolution Compressor (VRC) that adaptively predicts optimal encoding resolutions to eliminate redundant computation, and (2) Dual Consistency Learning (DCL), which aligns multi-scale ViT encoders within a unified framework, enabling dynamic switching between visual branches under a shared LLM. Extensive experiments demonstrate that HyperVL achieves state-of-the-art performance among models of comparable size across multiple benchmarks. Furthermore, it significantly significantly reduces latency and power consumption on real mobile devices, demonstrating its practicality for on-device multimodal inference.