AutoNeural : Co-conception de modèles vision-langage pour l'inférence sur NPU
AutoNeural: Co-Designing Vision-Language Models for NPU Inference
December 2, 2025
papers.authors: Wei Chen, Liangmin Wu, Yunhai Hu, Zhiyuan Li, Zhiyuan Cheng, Yicheng Qian, Lingyue Zhu, Zhipeng Hu, Luoyi Liang, Qiang Tang, Zhen Liu, Han Yang
cs.AI
papers.abstract
Bien que les unités de traitement neuronal (NPU) offrent une efficacité théorique élevée pour l'IA de périphérie, les modèles vision-langage (VLM) de pointe conçus pour les GPU échouent souvent sur ces substrats matériels. Nous attribuons cette inadéquation matériel-modèle à deux facteurs principaux : la fragilité des Vision Transformers (ViT) face à la quantification et la nature liée aux entrées-sorties des mécanismes d'attention autorégressifs, qui n'exploitent pas le débit arithmétique élevé des NPU. Pour combler cet écart, nous proposons AutoNeural, une architecture VLM native des NPU co-conçue pour une inférence en entiers uniquement. Nous remplaçons l'encodeur ViT standard par un squelette de type MobileNetV5 utilisant des convolutions séparables en profondeur, garantissant des distributions d'activation bornées pour une quantification INT4/8/16 stable. En complément, notre squelette linguistique intègre les principes des modèles à espace d'états (SSM) avec des couches Transformer, employant des convolutions à porte efficace pour atteindre une complexité linéaire. Cette conception hybride élimine la surcharge importante d'E/S mémoire due à la mise en cache des clés-valeurs pendant la génération. Notre approche procure des gains d'efficacité substantiels, réduisant l'erreur de quantification de l'encodeur visuel jusqu'à 7 fois et la latence de bout en bout de 14 fois par rapport aux solutions conventionnelles. AutoNeural offre également une vitesse de décodage 3 fois supérieure et une fenêtre de contexte 4 fois plus longue que la référence. Nous validons ces améliorations via une étude de cas automobile réaliste sur le SoC Qualcomm SA8295P, démontrant des performances en temps réel pour les applications d'habitacle. Nos résultats soulignent que repenser la topologie des modèles spécifiquement pour les contraintes des NPU est un prérequis pour une intelligence multi-modale robuste en périphérie.
English
While Neural Processing Units (NPUs) offer high theoretical efficiency for edge AI, state-of-the-art Vision--Language Models (VLMs) tailored for GPUs often falter on these substrates. We attribute this hardware-model mismatch to two primary factors: the quantization brittleness of Vision Transformers (ViTs) and the I/O-bound nature of autoregressive attention mechanisms, which fail to utilize the high arithmetic throughput of NPUs. To bridge this gap, we propose AutoNeural, an NPU-native VLM architecture co-designed for integer-only inference. We replace the standard ViT encoder with a MobileNetV5-style backbone utilizing depthwise separable convolutions, which ensures bounded activation distributions for stable INT4/8/16 quantization. Complementing this, our language backbone integrates State-Space Model (SSM) principles with Transformer layers, employing efficient gated convolutions to achieve linear-time complexity. This hybrid design eliminates the heavy memory I/O overhead of Key-Value caching during generation. Our approach delivers substantial efficiency gains, reducing quantization error of vision encoder by up to 7x and end-to-end latency by 14x compared to conventional baselines. The AutoNeural also delivers 3x decoding speed and 4x longer context window than the baseline. We validate these improvements via a real-world automotive case study on the Qualcomm SA8295P SoC, demonstrating real-time performance for cockpit applications. Our results highlight that rethinking model topology specifically for NPU constraints is a prerequisite for robust multi-modal edge intelligence.