ChatPaper.aiChatPaper

AutoNeural: Co-Diseño de Modelos de Visión-Lenguaje para Inferencia en NPU

AutoNeural: Co-Designing Vision-Language Models for NPU Inference

December 2, 2025
Autores: Wei Chen, Liangmin Wu, Yunhai Hu, Zhiyuan Li, Zhiyuan Cheng, Yicheng Qian, Lingyue Zhu, Zhipeng Hu, Luoyi Liang, Qiang Tang, Zhen Liu, Han Yang
cs.AI

Resumen

Si bien las Unidades de Procesamiento Neuronal (NPU) ofrecen una alta eficiencia teórica para la IA en el edge, los modelos visión-lenguaje (VLM) de vanguardia diseñados para GPU a menudo presentan un rendimiento deficiente en estos sustratos. Atribuimos este desajuste hardware-modelo a dos factores principales: la fragilidad ante la cuantización de los Transformers de Visión (ViT) y la naturaleza limitada por E/S de los mecanismos de atención autoregresivos, que no logran utilizar el alto rendimiento aritmético de las NPU. Para cerrar esta brecha, proponemos AutoNeural, una arquitectura VLM nativa de NPU co-diseñada para inferencia exclusiva con enteros. Reemplazamos el codificador ViT estándar con una columna vertebral de estilo MobileNetV5 que utiliza convoluciones separables en profundidad, lo que garantiza distribuciones de activación acotadas para una cuantización INT4/8/16 estable. Complementando esto, nuestra columna vertebral lingüística integra principios de Modelos de Espacio de Estados (SSM) con capas de Transformer, empleando convoluciones con puertas eficientes para lograr una complejidad temporal lineal. Este diseño híbrido elimina la gran sobrecarga de E/S de memoria del almacenamiento en caché de Clave-Valor durante la generación. Nuestro enfoque proporciona ganancias sustanciales de eficiencia, reduciendo el error de cuantización del codificador visual hasta 7 veces y la latencia de extremo a extremo 14 veces en comparación con los métodos convencionales de referencia. AutoNeural también ofrece una velocidad de decodificación 3 veces mayor y una ventana de contexto 4 veces más larga que la línea de base. Validamos estas mejoras mediante un estudio de caso automotriz del mundo real en el SoC Qualcomm SA8295P, demostrando un rendimiento en tiempo real para aplicaciones de cabina. Nuestros resultados resaltan que repensar la topología del modelo específicamente para las restricciones de las NPU es un requisito previo para una inteligencia multimodal en el edge robusta.
English
While Neural Processing Units (NPUs) offer high theoretical efficiency for edge AI, state-of-the-art Vision--Language Models (VLMs) tailored for GPUs often falter on these substrates. We attribute this hardware-model mismatch to two primary factors: the quantization brittleness of Vision Transformers (ViTs) and the I/O-bound nature of autoregressive attention mechanisms, which fail to utilize the high arithmetic throughput of NPUs. To bridge this gap, we propose AutoNeural, an NPU-native VLM architecture co-designed for integer-only inference. We replace the standard ViT encoder with a MobileNetV5-style backbone utilizing depthwise separable convolutions, which ensures bounded activation distributions for stable INT4/8/16 quantization. Complementing this, our language backbone integrates State-Space Model (SSM) principles with Transformer layers, employing efficient gated convolutions to achieve linear-time complexity. This hybrid design eliminates the heavy memory I/O overhead of Key-Value caching during generation. Our approach delivers substantial efficiency gains, reducing quantization error of vision encoder by up to 7x and end-to-end latency by 14x compared to conventional baselines. The AutoNeural also delivers 3x decoding speed and 4x longer context window than the baseline. We validate these improvements via a real-world automotive case study on the Qualcomm SA8295P SoC, demonstrating real-time performance for cockpit applications. Our results highlight that rethinking model topology specifically for NPU constraints is a prerequisite for robust multi-modal edge intelligence.
PDF41December 5, 2025