ChatPaper.aiChatPaper

AutoNeural: NPU 추론을 위한 시각-언어 모델 공동 설계

AutoNeural: Co-Designing Vision-Language Models for NPU Inference

December 2, 2025
저자: Wei Chen, Liangmin Wu, Yunhai Hu, Zhiyuan Li, Zhiyuan Cheng, Yicheng Qian, Lingyue Zhu, Zhipeng Hu, Luoyi Liang, Qiang Tang, Zhen Liu, Han Yang
cs.AI

초록

신경망 처리 장치(NPU)가 에지 AI에 대해 높은 이론적 효율성을 제공하지만, GPU용으로 최적화된 최신 시각-언어 모델(VLM)은 이러한 하드웨어 기반에서는 종종 성능이 저하됩니다. 이러한 하드웨어-모델 불일치는 주로 두 가지 요인에 기인합니다: Vision Transformer(ViT)의 양자화 취약성과 NPU의 높은 연산 처리량을 활용하지 못하는 자기회귀적 어텐션 메커니즘의 I/O 병목 현상입니다. 이러한 격차를 해소하기 위해 본 논문에서는 정수 연산 전용 추론을 위해 공동 설계된 NPU 네이티브 VLM 아키텍처인 AutoNeural을 제안합니다. 표준 ViT 인코더를 계층별 분리 가능 합성곱을 활용하는 MobileNetV5 스타일 백본으로 대체하여 안정적인 INT4/8/16 양자화를 위한 제한된 활성화 분포를 보장합니다. 이를 보완하기 위해 언어 백본은 상태 공간 모델(SSM) 원리를 Transformer 계층과 통합하여 선형 시간 복잡도를 달성하는 효율적인 게이트 합성곱을 채택합니다. 이 하이브리드 설계는 생성 과정에서 Key-Value 캐싱의 과도한 메모리 I/O 오버헤드를 제거합니다. 본 접근법은 기존 대비 비전 인코더의 양자화 오류를 최대 7배 감소시키고 종단 간 지연 시간을 14배 단축하는 상당한 효율 향상을 제공합니다. AutoNeural은 또한 기준 대비 3배 빠른 디코딩 속도와 4배 긴 컨텍스트 창을 지원합니다. 이러한 개선 사항을 Qualcomm SA8295P SoC에서 진행한 실제 자동차 사례 연구를 통해 검증하며, 콕핏 애플리케이션에 대한 실시간 성능을 입증합니다. 본 연구 결과는 NPU 제약 조건에 특화된 모델 토폴로지 재설계가 강력한 멀티모달 에지 인텔리전스의 필수 조건임을 강조합니다.
English
While Neural Processing Units (NPUs) offer high theoretical efficiency for edge AI, state-of-the-art Vision--Language Models (VLMs) tailored for GPUs often falter on these substrates. We attribute this hardware-model mismatch to two primary factors: the quantization brittleness of Vision Transformers (ViTs) and the I/O-bound nature of autoregressive attention mechanisms, which fail to utilize the high arithmetic throughput of NPUs. To bridge this gap, we propose AutoNeural, an NPU-native VLM architecture co-designed for integer-only inference. We replace the standard ViT encoder with a MobileNetV5-style backbone utilizing depthwise separable convolutions, which ensures bounded activation distributions for stable INT4/8/16 quantization. Complementing this, our language backbone integrates State-Space Model (SSM) principles with Transformer layers, employing efficient gated convolutions to achieve linear-time complexity. This hybrid design eliminates the heavy memory I/O overhead of Key-Value caching during generation. Our approach delivers substantial efficiency gains, reducing quantization error of vision encoder by up to 7x and end-to-end latency by 14x compared to conventional baselines. The AutoNeural also delivers 3x decoding speed and 4x longer context window than the baseline. We validate these improvements via a real-world automotive case study on the Qualcomm SA8295P SoC, demonstrating real-time performance for cockpit applications. Our results highlight that rethinking model topology specifically for NPU constraints is a prerequisite for robust multi-modal edge intelligence.
PDF41December 5, 2025