HyperVL: Эффективная и динамичная мультимодальная большая языковая модель для периферийных устройств
HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices
December 16, 2025
Авторы: HyperAI Team, Yuchen Liu, Kaiyang Han, Zhiqiang Xia, Yuhang Dong, Chen Song, Kangyu Tang, Jiaming Xu, Xiushi Feng, WenXuan Yu, Li Peng, Mingyang Wang, Kai Wang, Changpeng Yang, Yang Li, Haoyu Lu, Hao Wang, Bingna Xu, Guangyao Liu, Long Huang, Kaibin Guo, Jinyang Wu, Dan Wu, Hongzhen Wang, Peng Zhou, Shuai Nie, Shande Wang, Runyu Shi, Ying Huang
cs.AI
Аннотация
Современные мультимодальные большие языковые модели обладают мощными перцептивными и логическими способностями, однако высокие вычислительные затраты и требования к памяти затрудняют их прямое развертывание в on-device средах. Хотя модели с малым количеством параметров постепенно наделяются сильными общими возможностями, стандартные энкодеры Vision Transformer (ViT) остаются ключевым узким местом, страдая от чрезмерной задержки и потребления памяти при обработке входных данных высокого разрешения.
Для решения этих проблем мы представляем HyperVL — эффективную мультимодальную большую языковую модель, адаптированную для инференса на устройстве. HyperVL использует стратегию разбиения изображения на фрагменты для ограничения пикового использования памяти и включает две новые методики: (1) Компрессор визуального разрешения (VRC), который адаптивно предсказывает оптимальное разрешение кодирования для устранения избыточных вычислений, и (2) Обучение двойной согласованности (DCL), которое согласует энкодеры ViT разных масштабов в единой структуре, позволяя динамически переключаться между визуальными ветвями при общем LLM.
Экстенсивные эксперименты демонстрируют, что HyperVL достигает наилучших результатов среди моделей сопоставимого размера в нескольких бенчмарках. Кроме того, она существенно снижает задержку и энергопотребление на реальных мобильных устройствах, подтверждая свою практическую пригодность для мультимодального инференса на устройстве.
English
Current multimodal large lanauge models possess strong perceptual and reasoning capabilities, however high computational and memory requirements make them difficult to deploy directly on on-device environments. While small-parameter models are progressively endowed with strong general capabilities, standard Vision Transformer (ViT) encoders remain a critical bottleneck, suffering from excessive latency and memory consumption when processing high-resolution inputs.To address these challenges, we introduce HyperVL, an efficient multimodal large language model tailored for on-device inference. HyperVL adopts an image-tiling strategy to cap peak memory usage and incorporates two novel techniques: (1) a Visual Resolution Compressor (VRC) that adaptively predicts optimal encoding resolutions to eliminate redundant computation, and (2) Dual Consistency Learning (DCL), which aligns multi-scale ViT encoders within a unified framework, enabling dynamic switching between visual branches under a shared LLM. Extensive experiments demonstrate that HyperVL achieves state-of-the-art performance among models of comparable size across multiple benchmarks. Furthermore, it significantly significantly reduces latency and power consumption on real mobile devices, demonstrating its practicality for on-device multimodal inference.