ChatPaper.aiChatPaper

HyperVL: Un Modelo de Lenguaje Grande Multimodal Eficiente y Dinámico para Dispositivos de Edge

HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices

December 16, 2025
Autores: HyperAI Team, Yuchen Liu, Kaiyang Han, Zhiqiang Xia, Yuhang Dong, Chen Song, Kangyu Tang, Jiaming Xu, Xiushi Feng, WenXuan Yu, Li Peng, Mingyang Wang, Kai Wang, Changpeng Yang, Yang Li, Haoyu Lu, Hao Wang, Bingna Xu, Guangyao Liu, Long Huang, Kaibin Guo, Jinyang Wu, Dan Wu, Hongzhen Wang, Peng Zhou, Shuai Nie, Shande Wang, Runyu Shi, Ying Huang
cs.AI

Resumen

Los modelos multimodales grandes actuales poseen fuertes capacidades de percepción y razonamiento; sin embargo, sus altos requisitos computacionales y de memoria dificultan su implementación directa en entornos locales. Si bien los modelos con pocos parámetros están adquiriendo progresivamente capacidades generales sólidas, los codificadores estándar de Vision Transformer (ViT) siguen siendo un cuello de botella crítico, sufriendo una latencia excesiva y un alto consumo de memoria al procesar entradas de alta resolución. Para abordar estos desafíos, presentamos HyperVL, un modelo multimodal grande eficiente optimizado para inferencia en dispositivos locales. HyperVL adopta una estrategia de división de imágenes para limitar el uso máximo de memoria e incorpora dos técnicas novedosas: (1) un Compresor de Resolución Visual (VRC) que predice adaptivamente las resoluciones de codificación óptimas para eliminar el cómputo redundante, y (2) Aprendizaje de Consistencia Dual (DCL), que alinea codificadores ViT multiescala dentro de un marco unificado, permitiendo el cambio dinámico entre ramas visuales bajo un mismo modelo de lenguaje grande (LLM). Experimentos exhaustivos demuestran que HyperVL alcanza un rendimiento de vanguardia entre modelos de tamaño comparable en múltiples benchmarks. Además, reduce significativamente la latencia y el consumo energético en dispositivos móviles reales, demostrando su practicidad para la inferencia multimodal en dispositivos locales.
English
Current multimodal large lanauge models possess strong perceptual and reasoning capabilities, however high computational and memory requirements make them difficult to deploy directly on on-device environments. While small-parameter models are progressively endowed with strong general capabilities, standard Vision Transformer (ViT) encoders remain a critical bottleneck, suffering from excessive latency and memory consumption when processing high-resolution inputs.To address these challenges, we introduce HyperVL, an efficient multimodal large language model tailored for on-device inference. HyperVL adopts an image-tiling strategy to cap peak memory usage and incorporates two novel techniques: (1) a Visual Resolution Compressor (VRC) that adaptively predicts optimal encoding resolutions to eliminate redundant computation, and (2) Dual Consistency Learning (DCL), which aligns multi-scale ViT encoders within a unified framework, enabling dynamic switching between visual branches under a shared LLM. Extensive experiments demonstrate that HyperVL achieves state-of-the-art performance among models of comparable size across multiple benchmarks. Furthermore, it significantly significantly reduces latency and power consumption on real mobile devices, demonstrating its practicality for on-device multimodal inference.
PDF332December 19, 2025