ChatPaper.aiChatPaper

AutoNeural:NPU推論に向けた視覚言語モデルの協調設計

AutoNeural: Co-Designing Vision-Language Models for NPU Inference

December 2, 2025
著者: Wei Chen, Liangmin Wu, Yunhai Hu, Zhiyuan Li, Zhiyuan Cheng, Yicheng Qian, Lingyue Zhu, Zhipeng Hu, Luoyi Liang, Qiang Tang, Zhen Liu, Han Yang
cs.AI

要旨

ニューラル・プロセッシング・ユニット(NPU)はエッジAIにおいて高い理論的な効率を提供するが、GPU向けに調整された最先端のVision-Languageモデル(VLM)は、これらの基盤上ではしばしば十分な性能を発揮できない。我々はこのハードウェアとモデルのミスマッチを、主に2つの要因に帰因する:Vision Transformer(ViT)の量子化の脆弱性、および、NPUの高い演算スループットを活用できない自己回帰的注意機構のI/Oバウンドな性質である。この隔たりを埋めるため、我々は整数演算のみの推論のために協調設計されたNPUネイティブなVLMアーキテクチャ、AutoNeuralを提案する。標準的なViTエンコーダを、深度分離可能畳み込みを利用したMobileNetV5スタイルのバックボーンに置き換えることで、安定したINT4/8/16量子化のための有界な活性化分布を保証する。これを補完するため、我々の言語バックボーンはState-Space Model(SSM)の原理をTransformer層と統合し、線形時間計算量を実現する効率的なゲート付き畳み込みを採用する。このハイブリッド設計は、生成時のKey-Valueキャッシングに伴う重いメモリI/Oオーバーヘッドを排除する。本手法は大幅な効率向上をもたらし、従来のベースラインと比較して、ビジョンエンコーダの量子化誤差を最大7分の1に低減し、エンドツーエンドのレイテンシを14分の1に削減する。AutoNeuralはまた、ベースラインと比べて3倍のデコード速度と4倍の長いコンテキストウィンドウを実現する。我々は、クアルコムSA8295P SoC上での実世界の自動車ユースケーススタディを通じてこれらの改善を検証し、コックピットアプリケーションにおけるリアルタイム性能を実証する。我々の結果は、NPUの制約に特化してモデルトポロジを再考することが、堅牢なマルチモーダルエッジ知能の前提条件であることを示唆している。
English
While Neural Processing Units (NPUs) offer high theoretical efficiency for edge AI, state-of-the-art Vision--Language Models (VLMs) tailored for GPUs often falter on these substrates. We attribute this hardware-model mismatch to two primary factors: the quantization brittleness of Vision Transformers (ViTs) and the I/O-bound nature of autoregressive attention mechanisms, which fail to utilize the high arithmetic throughput of NPUs. To bridge this gap, we propose AutoNeural, an NPU-native VLM architecture co-designed for integer-only inference. We replace the standard ViT encoder with a MobileNetV5-style backbone utilizing depthwise separable convolutions, which ensures bounded activation distributions for stable INT4/8/16 quantization. Complementing this, our language backbone integrates State-Space Model (SSM) principles with Transformer layers, employing efficient gated convolutions to achieve linear-time complexity. This hybrid design eliminates the heavy memory I/O overhead of Key-Value caching during generation. Our approach delivers substantial efficiency gains, reducing quantization error of vision encoder by up to 7x and end-to-end latency by 14x compared to conventional baselines. The AutoNeural also delivers 3x decoding speed and 4x longer context window than the baseline. We validate these improvements via a real-world automotive case study on the Qualcomm SA8295P SoC, demonstrating real-time performance for cockpit applications. Our results highlight that rethinking model topology specifically for NPU constraints is a prerequisite for robust multi-modal edge intelligence.
PDF41December 5, 2025