AutoNeural: Co-Design de Modelos Visão-Linguagem para Inferência em NPU

Resumo

Embora as Unidades de Processamento Neural (NPUs) ofereçam alta eficiência teórica para IA de borda, os modelos visão-linguagem (VLMs) de última geração projetados para GPUs frequentemente apresentam desempenho insatisfatório nesses substratos. Atribuímos esse descompasso entre hardware e modelo a dois fatores principais: a fragilidade à quantização dos Vision Transformers (ViTs) e a natureza limitada por E/S dos mecanismos de atenção autoregressivos, que falham em utilizar o alto rendimento aritmético das NPUs. Para preencher esta lacuna, propomos o AutoNeural, uma arquitetura VLM nativa para NPUs codesenhada para inferência exclusivamente com inteiros. Substituímos o codificador ViT padrão por uma base baseada no estilo MobileNetV5 que utiliza convoluções separáveis em profundidade, garantindo distribuições de ativação limitadas para uma quantização INT4/8/16 estável. Complementando isso, nossa base linguística integra princípios de Modelos de Espaço de Estados (SSMs) com camadas de Transformer, empregando convoluciones com portas eficientes para alcançar complexidade de tempo linear. Este projeto híbrido elimina a pesada sobrecarga de E/S de memória do cache de Chave-Valor durante a geração. Nossa abordagem proporciona ganhos substanciais de eficiência, reduzindo o erro de quantização do codificador de visão em até 7x e a latência ponta a ponta em 14x em comparação com as linhas de base convencionais. O AutoNeural também oferece uma velocidade de decodificação 3x maior e uma janela de contexto 4x mais longa do que a linha de base. Validamos essas melhorias por meio de um estudo de caso automotivo do mundo real no SoC Qualcomm SA8295P, demonstrando desempenho em tempo real para aplicações de cockpit. Nossos resultados destacam que repensar a topologia do modelo especificamente para as restrições das NPUs é um pré-requisito para uma inteligência multimodal de borda robusta.

English

While Neural Processing Units (NPUs) offer high theoretical efficiency for edge AI, state-of-the-art Vision--Language Models (VLMs) tailored for GPUs often falter on these substrates. We attribute this hardware-model mismatch to two primary factors: the quantization brittleness of Vision Transformers (ViTs) and the I/O-bound nature of autoregressive attention mechanisms, which fail to utilize the high arithmetic throughput of NPUs. To bridge this gap, we propose AutoNeural, an NPU-native VLM architecture co-designed for integer-only inference. We replace the standard ViT encoder with a MobileNetV5-style backbone utilizing depthwise separable convolutions, which ensures bounded activation distributions for stable INT4/8/16 quantization. Complementing this, our language backbone integrates State-Space Model (SSM) principles with Transformer layers, employing efficient gated convolutions to achieve linear-time complexity. This hybrid design eliminates the heavy memory I/O overhead of Key-Value caching during generation. Our approach delivers substantial efficiency gains, reducing quantization error of vision encoder by up to 7x and end-to-end latency by 14x compared to conventional baselines. The AutoNeural also delivers 3x decoding speed and 4x longer context window than the baseline. We validate these improvements via a real-world automotive case study on the Qualcomm SA8295P SoC, demonstrating real-time performance for cockpit applications. Our results highlight that rethinking model topology specifically for NPU constraints is a prerequisite for robust multi-modal edge intelligence.

AutoNeural: Co-Design de Modelos Visão-Linguagem para Inferência em NPU

AutoNeural: Co-Designing Vision-Language Models for NPU Inference

Resumo

Support