AutoNeural: Совместное проектирование моделей «визуальный контент — естественный язык» для вывода на NPU
AutoNeural: Co-Designing Vision-Language Models for NPU Inference
December 2, 2025
Авторы: Wei Chen, Liangmin Wu, Yunhai Hu, Zhiyuan Li, Zhiyuan Cheng, Yicheng Qian, Lingyue Zhu, Zhipeng Hu, Luoyi Liang, Qiang Tang, Zhen Liu, Han Yang
cs.AI
Аннотация
Хотя нейронные процессоры (NPU) обладают высокой теоретической эффективностью для edge-искусственного интеллекта, современные Vision-Language Models (VLM), оптимизированные для GPU, часто демонстрируют низкую производительность на этих аппаратных платформах. Мы объясняем это несоответствие между аппаратным обеспечением и моделью двумя основными факторами: хрупкостью Vision Transformers (ViT) к квантованию и вводно-выводной природой авторегрессионных механизмов внимания, которые не используют высокую пропускную способность NPU по арифметическим операциям. Для преодоления этого разрыва мы предлагаем AutoNeural — NPU-нативную архитектуру VLM, совместно спроектированную для целочисленного вывода. Мы заменяем стандартный ViT-энкодер на базе MobileNetV5, использующий depthwise separable свертки, что обеспечивает ограниченное распределение активаций для стабильного INT4/8/16 квантования. Дополняя это, наш языковой блок интегрирует принципы State-Space Model (SSM) со слоями Transformer, применяя эффективные gated свертки для достижения линейной сложности по времени. Этот гибридный дизайн устраняет высокие затраты на память при кэшировании Key-Value во время генерации. Наш подход обеспечивает значительное повышение эффективности, снижая ошибку квантования визуального энкодера до 7 раз и сквозную задержку до 14 раз по сравнению с традиционными базовыми методами. AutoNeural также обеспечивает 3-кратную скорость декодирования и 4-кратное увеличение длины контекстного окна. Мы проверяем эти улучшения на реальном автомобильном кейсе для SoC Qualcomm SA8295P, демонстрируя производительность в реальном времени для применений в салоне автомобиля. Наши результаты подчеркивают, что переосмысление топологии модели с учетом ограничений NPU является обязательным условием для создания надежного многомодального интеллекта на периферии.
English
While Neural Processing Units (NPUs) offer high theoretical efficiency for edge AI, state-of-the-art Vision--Language Models (VLMs) tailored for GPUs often falter on these substrates. We attribute this hardware-model mismatch to two primary factors: the quantization brittleness of Vision Transformers (ViTs) and the I/O-bound nature of autoregressive attention mechanisms, which fail to utilize the high arithmetic throughput of NPUs. To bridge this gap, we propose AutoNeural, an NPU-native VLM architecture co-designed for integer-only inference. We replace the standard ViT encoder with a MobileNetV5-style backbone utilizing depthwise separable convolutions, which ensures bounded activation distributions for stable INT4/8/16 quantization. Complementing this, our language backbone integrates State-Space Model (SSM) principles with Transformer layers, employing efficient gated convolutions to achieve linear-time complexity. This hybrid design eliminates the heavy memory I/O overhead of Key-Value caching during generation. Our approach delivers substantial efficiency gains, reducing quantization error of vision encoder by up to 7x and end-to-end latency by 14x compared to conventional baselines. The AutoNeural also delivers 3x decoding speed and 4x longer context window than the baseline. We validate these improvements via a real-world automotive case study on the Qualcomm SA8295P SoC, demonstrating real-time performance for cockpit applications. Our results highlight that rethinking model topology specifically for NPU constraints is a prerequisite for robust multi-modal edge intelligence.