HyperVL: エッジデバイス向け効率的で動的なマルチモーダル大規模言語モデル
HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices
December 16, 2025
著者: HyperAI Team, Yuchen Liu, Kaiyang Han, Zhiqiang Xia, Yuhang Dong, Chen Song, Kangyu Tang, Jiaming Xu, Xiushi Feng, WenXuan Yu, Li Peng, Mingyang Wang, Kai Wang, Changpeng Yang, Yang Li, Haoyu Lu, Hao Wang, Bingna Xu, Guangyao Liu, Long Huang, Kaibin Guo, Jinyang Wu, Dan Wu, Hongzhen Wang, Peng Zhou, Shuai Nie, Shande Wang, Runyu Shi, Ying Huang
cs.AI
要旨
現在のマルチモーダル大規模言語モデルは強力な知覚・推論能力を有するが、高い計算量とメモリ要件のため、オンデバイス環境への直接導入が困難である。小パラメータモデルが強力な汎用能力を次第に獲得する中で、標準的なVision Transformer(ViT)エンコーダは依然として重大なボトルネックとなっており、高解像度入力の処理時に過剰なレイテンシとメモリ消費に悩まされている。これらの課題に対処するため、我々はオンデバイス推論に特化した効率的なマルチモーダル大規模言語モデルHyperVLを提案する。HyperVLは画像タイル化戦略によりピークメモリ使用量を抑制し、二つの新技術を組み込んでいる:(1)冗長な計算を排除する最適な符号化解像度を適応的に予測するVisual Resolution Compressor(VRC)、(2)マルチスケールViTエンコーダを統一フレームワーク内で調整し、共有LLM下で視覚ブランチの動的切り替えを可能にするDual Consistency Learning(DCL)。大規模な実験により、HyperVLが同等サイズのモデル群の中で複数ベンチマークにおいて最先端の性能を達成することを実証した。さらに、実機モバイルデバイスにおいてレイテンシと消費電力を大幅に削減し、オンデバイスマルチモーダル推論における実用性を立証している。
English
Current multimodal large lanauge models possess strong perceptual and reasoning capabilities, however high computational and memory requirements make them difficult to deploy directly on on-device environments. While small-parameter models are progressively endowed with strong general capabilities, standard Vision Transformer (ViT) encoders remain a critical bottleneck, suffering from excessive latency and memory consumption when processing high-resolution inputs.To address these challenges, we introduce HyperVL, an efficient multimodal large language model tailored for on-device inference. HyperVL adopts an image-tiling strategy to cap peak memory usage and incorporates two novel techniques: (1) a Visual Resolution Compressor (VRC) that adaptively predicts optimal encoding resolutions to eliminate redundant computation, and (2) Dual Consistency Learning (DCL), which aligns multi-scale ViT encoders within a unified framework, enabling dynamic switching between visual branches under a shared LLM. Extensive experiments demonstrate that HyperVL achieves state-of-the-art performance among models of comparable size across multiple benchmarks. Furthermore, it significantly significantly reduces latency and power consumption on real mobile devices, demonstrating its practicality for on-device multimodal inference.