AutoNeural: Co-Design von Vision-Language-Modellen für die NPU-Inferenz
AutoNeural: Co-Designing Vision-Language Models for NPU Inference
December 2, 2025
papers.authors: Wei Chen, Liangmin Wu, Yunhai Hu, Zhiyuan Li, Zhiyuan Cheng, Yicheng Qian, Lingyue Zhu, Zhipeng Hu, Luoyi Liang, Qiang Tang, Zhen Liu, Han Yang
cs.AI
papers.abstract
Während Neural Processing Units (NPUs) eine hohe theoretische Effizienz für Edge-KI bieten, versagen state-of-the-art Vision-Language-Models (VLMs), die für GPUs optimiert sind, häufig auf diesen Substraten. Wir führen diese Hardware-Modell-Diskrepanz auf zwei Hauptfaktoren zurück: die Quantisierungsanfälligkeit von Vision Transformern (ViTs) und den I/O-lastigen Charakter autoregressiver Attention-Mechanismen, welche den hohen arithmetischen Durchsatz von NPUs nicht nutzen können. Um diese Lücke zu schließen, stellen wir AutoNeural vor, eine NPU-native VLM-Architektur, die gemeinsam für eine ausschließlich ganzzahlige (Integer-Only) Inferenz entwickelt wurde. Wir ersetzen den standardmäßigen ViT-Encoder durch ein MobileNetV5-artiges Backbone, das Tiefenweise Separierbare Faltungen nutzt, um begrenzte Aktivierungsverteilungen für eine stabile INT4/8/16-Quantisierung zu gewährleisten. Ergänzend dazu integriert unser Sprach-Backbone Prinzipien von State-Space-Modellen (SSMs) mit Transformer-Schichten und setzt effiziente Gated Convolutions ein, um eine lineare Zeitkomplexität zu erreichen. Dieser hybride Entwurf beseitigt den hohen Speicher-I/O-Overhead von Key-Value-Caching während der Generierung. Unser Ansatz erzielt erhebliche Effizienzgewinne, reduziert den Quantisierungsfehler des Vision-Encoders um bis zum 7-fachen und die Ende-zu-Ende-Latenz um das 14-fache im Vergleich zu konventionellen Baselines. AutoNeural erreicht zudem eine 3-fache Decodiergeschwindigkeit und einen 4-fach längeren Kontextfenster als die Baseline. Wir validieren diese Verbesserungen durch eine automotive Fallstudie auf dem Qualcomm SA8295P SoC, die Echtzeitleistung für Cockpit-Anwendungen demonstriert. Unsere Ergebnisse unterstreichen, dass eine Neuausrichtung der Modelltopologie speziell für NPU-Randbedingungen eine Voraussetzung für robuste multimodale Edge-Intelligenz ist.
English
While Neural Processing Units (NPUs) offer high theoretical efficiency for edge AI, state-of-the-art Vision--Language Models (VLMs) tailored for GPUs often falter on these substrates. We attribute this hardware-model mismatch to two primary factors: the quantization brittleness of Vision Transformers (ViTs) and the I/O-bound nature of autoregressive attention mechanisms, which fail to utilize the high arithmetic throughput of NPUs. To bridge this gap, we propose AutoNeural, an NPU-native VLM architecture co-designed for integer-only inference. We replace the standard ViT encoder with a MobileNetV5-style backbone utilizing depthwise separable convolutions, which ensures bounded activation distributions for stable INT4/8/16 quantization. Complementing this, our language backbone integrates State-Space Model (SSM) principles with Transformer layers, employing efficient gated convolutions to achieve linear-time complexity. This hybrid design eliminates the heavy memory I/O overhead of Key-Value caching during generation. Our approach delivers substantial efficiency gains, reducing quantization error of vision encoder by up to 7x and end-to-end latency by 14x compared to conventional baselines. The AutoNeural also delivers 3x decoding speed and 4x longer context window than the baseline. We validate these improvements via a real-world automotive case study on the Qualcomm SA8295P SoC, demonstrating real-time performance for cockpit applications. Our results highlight that rethinking model topology specifically for NPU constraints is a prerequisite for robust multi-modal edge intelligence.