ChatPaper.aiChatPaper

AutoNeural: Gezamenlijk Ontwerp van Vision-Language Modellen voor NPU-Inferentie

AutoNeural: Co-Designing Vision-Language Models for NPU Inference

December 2, 2025
Auteurs: Wei Chen, Liangmin Wu, Yunhai Hu, Zhiyuan Li, Zhiyuan Cheng, Yicheng Qian, Lingyue Zhu, Zhipeng Hu, Luoyi Liang, Qiang Tang, Zhen Liu, Han Yang
cs.AI

Samenvatting

Hoewel Neural Processing Units (NPU's) een hoge theoretische efficiëntie bieden voor edge-AI, presteren state-of-the-art Vision-Language Models (VLM's) die zijn afgestemd op GPU's vaak ondermaats op deze substraten. Wij schrijven deze hardware-model mismatch toe aan twee primaire factoren: de kwantiseringsbroosheid van Vision Transformers (ViT's) en het I/O-gebonden karakter van autoregressieve aandachtmechanismen, die de hoge rekenkundige doorvoer van NPU's niet benutten. Om deze kloof te overbruggen, stellen wij AutoNeural voor, een NPU-native VLM-architectuur die mede-ontworpen is voor uitsluitend integer-inferentie. Wij vervangen de standaard ViT-encoder door een backbone in MobileNetV5-stijl die gebruikmaakt van depthwise separable convolutions, wat gegarandeerde activeringsdistributies voor stabiele INT4/8/16-kwantisering waarborgt. Hierop aanvullend integreert onze taal-backbone State-Space Model (SSM)-principes met Transformer-lagen, waarbij efficiënte gated convolutions worden ingezet om lineaire tijdscomplexiteit te bereiken. Dit hybride ontwerp elimineert de zware geheugen-I/O-overhead van Key-Value caching tijdens generatie. Onze aanpak levert aanzienlijke efficiëntiewinsten op, met een reductie van de kwantiseringsfout van de vision-encoder tot wel 7x en een end-to-end latentie met 14x vergeleken met conventionele baseline-modellen. AutoNeural biedt tevens een 3x hogere decodesnelheid en een 4x langere contextvenster dan de baseline. Wij valideren deze verbeteringen via een real-world automotive case study op de Qualcomm SA8295P SoC, waarbij realtime prestaties voor cockpitapplicaties worden aangetoond. Onze resultaten benadrukken dat het heroverwegen van de modeltopologie specifiek voor NPU-beperkingen een vereiste is voor robuuste multimodale edge-intelligentie.
English
While Neural Processing Units (NPUs) offer high theoretical efficiency for edge AI, state-of-the-art Vision--Language Models (VLMs) tailored for GPUs often falter on these substrates. We attribute this hardware-model mismatch to two primary factors: the quantization brittleness of Vision Transformers (ViTs) and the I/O-bound nature of autoregressive attention mechanisms, which fail to utilize the high arithmetic throughput of NPUs. To bridge this gap, we propose AutoNeural, an NPU-native VLM architecture co-designed for integer-only inference. We replace the standard ViT encoder with a MobileNetV5-style backbone utilizing depthwise separable convolutions, which ensures bounded activation distributions for stable INT4/8/16 quantization. Complementing this, our language backbone integrates State-Space Model (SSM) principles with Transformer layers, employing efficient gated convolutions to achieve linear-time complexity. This hybrid design eliminates the heavy memory I/O overhead of Key-Value caching during generation. Our approach delivers substantial efficiency gains, reducing quantization error of vision encoder by up to 7x and end-to-end latency by 14x compared to conventional baselines. The AutoNeural also delivers 3x decoding speed and 4x longer context window than the baseline. We validate these improvements via a real-world automotive case study on the Qualcomm SA8295P SoC, demonstrating real-time performance for cockpit applications. Our results highlight that rethinking model topology specifically for NPU constraints is a prerequisite for robust multi-modal edge intelligence.
PDF41December 5, 2025