ChatPaper.aiChatPaper

AutoNeural: Co-progettazione di modelli visione-linguaggio per l'inferenza su NPU

AutoNeural: Co-Designing Vision-Language Models for NPU Inference

December 2, 2025
Autori: Wei Chen, Liangmin Wu, Yunhai Hu, Zhiyuan Li, Zhiyuan Cheng, Yicheng Qian, Lingyue Zhu, Zhipeng Hu, Luoyi Liang, Qiang Tang, Zhen Liu, Han Yang
cs.AI

Abstract

Sebbene le Neural Processing Unit (NPU) offrano un'elevata efficienza teorica per l'AI di edge, i modelli visione-linguaggio (VLM) all'avanguardia ottimizzati per le GPU spesso deludono su questi substrati. Attribuiamo questa incompatibilità hardware-modello a due fattori principali: la fragilità alla quantizzazione dei Vision Transformer (ViT) e la natura vincolata dall'I/O dei meccanismi di attenzione autoregressiva, che non riescono a sfruttare l'elevata velocità aritmetica delle NPU. Per colmare questa lacuna, proponiamo AutoNeural, un'architettura VLM nativa per NPU co-progettata per l'inferenza basata esclusivamente su numeri interi. Sostituiamo il codificatore ViT standard con un backbone di tipo MobileNetV5 che utilizza convoluzioni separabili in profondità, garantendo distribuzioni di attivazione limitate per una quantizzazione INT4/8/16 stabile. A complemento, il nostro backbone linguistico integra i principi dei State-Space Model (SSM) con i layer Transformer, impiegando convoluzioni gated efficienti per ottenere una complessità temporale lineare. Questo design ibrido elimina l'onere significativo di I/O della memoria associato alla cache Key-Value durante la generazione. Il nostro approccio fornisce sostanziali vantaggi in termini di efficienza, riducendo l'errore di quantizzazione del codificatore visivo fino a 7 volte e la latenza end-to-end di 14 volte rispetto ai baseline convenzionali. AutoNeural offre anche una velocità di decodifica 3 volte superiore e una finestra di contesto 4 volte più lunga rispetto al baseline. Convalidiamo questi miglioramenti attraverso un caso di studio automobilistico reale sul SoC Qualcomm SA8295P, dimostrando prestazioni in tempo reale per applicazioni di cockpit. I nostri risultati evidenziano come ripensare la topologia del modello specificamente per i vincoli delle NPU sia un prerequisito per un'intelligenza multi-modale robusta sull'edge.
English
While Neural Processing Units (NPUs) offer high theoretical efficiency for edge AI, state-of-the-art Vision--Language Models (VLMs) tailored for GPUs often falter on these substrates. We attribute this hardware-model mismatch to two primary factors: the quantization brittleness of Vision Transformers (ViTs) and the I/O-bound nature of autoregressive attention mechanisms, which fail to utilize the high arithmetic throughput of NPUs. To bridge this gap, we propose AutoNeural, an NPU-native VLM architecture co-designed for integer-only inference. We replace the standard ViT encoder with a MobileNetV5-style backbone utilizing depthwise separable convolutions, which ensures bounded activation distributions for stable INT4/8/16 quantization. Complementing this, our language backbone integrates State-Space Model (SSM) principles with Transformer layers, employing efficient gated convolutions to achieve linear-time complexity. This hybrid design eliminates the heavy memory I/O overhead of Key-Value caching during generation. Our approach delivers substantial efficiency gains, reducing quantization error of vision encoder by up to 7x and end-to-end latency by 14x compared to conventional baselines. The AutoNeural also delivers 3x decoding speed and 4x longer context window than the baseline. We validate these improvements via a real-world automotive case study on the Qualcomm SA8295P SoC, demonstrating real-time performance for cockpit applications. Our results highlight that rethinking model topology specifically for NPU constraints is a prerequisite for robust multi-modal edge intelligence.
PDF41December 5, 2025