HyperVL: Um Modelo de Linguagem Multimodal Grande Eficiente e Dinâmico para Dispositivos de Borda

Resumo

Os modelos multimodais de grande porte atuais possuem fortes capacidades de percepção e raciocínio, porém seus altos requisitos computacionais e de memória dificultam a implantação direta em ambientes de dispositivo. Embora modelos com pequeno número de parâmetros estejam progressivamente adquirindo capacidades gerais robustas, os codificadores padrão Vision Transformer (ViT) permanecem um gargalo crítico, sofrendo com latência excessiva e alto consumo de memória ao processar entradas de alta resolução. Para enfrentar esses desafios, introduzimos o HyperVL, um modelo multimodal de grande porte eficiente, projetado para inferência em dispositivo. O HyperVL adota uma estratégia de divisão de imagens para limitar o uso máximo de memória e incorpora duas técnicas inovadoras: (1) um Compressor de Resolução Visual (VRC) que prevê adaptivamente as resoluções de codificação ideais para eliminar computação redundante, e (2) Aprendizado de Dupla Consistência (DCL), que alinha codificadores ViT multiescala em uma estrutura unificada, permitindo comutação dinâmica entre ramificações visuais sob um mesmo LLM compartilhado. Experimentos extensivos demonstram que o HyperVL alcança desempenho state-of-the-art entre modelos de tamanho comparável em múltiplos benchmarks. Além disso, reduz significativamente a latência e o consumo de energia em dispositivos móveis reais, comprovando sua praticidade para inferência multimodal em dispositivo.

English

Current multimodal large lanauge models possess strong perceptual and reasoning capabilities, however high computational and memory requirements make them difficult to deploy directly on on-device environments. While small-parameter models are progressively endowed with strong general capabilities, standard Vision Transformer (ViT) encoders remain a critical bottleneck, suffering from excessive latency and memory consumption when processing high-resolution inputs.To address these challenges, we introduce HyperVL, an efficient multimodal large language model tailored for on-device inference. HyperVL adopts an image-tiling strategy to cap peak memory usage and incorporates two novel techniques: (1) a Visual Resolution Compressor (VRC) that adaptively predicts optimal encoding resolutions to eliminate redundant computation, and (2) Dual Consistency Learning (DCL), which aligns multi-scale ViT encoders within a unified framework, enabling dynamic switching between visual branches under a shared LLM. Extensive experiments demonstrate that HyperVL achieves state-of-the-art performance among models of comparable size across multiple benchmarks. Furthermore, it significantly significantly reduces latency and power consumption on real mobile devices, demonstrating its practicality for on-device multimodal inference.

HyperVL: Um Modelo de Linguagem Multimodal Grande Eficiente e Dinâmico para Dispositivos de Borda

HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices

Resumo

Support