QuartDepth: 에지 디바이스를 위한 실시간 깊이 추정을 위한 학습 후 양자화
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge
March 20, 2025
저자: Xuan Shen, Weize Ma, Jing Liu, Changdi Yang, Rui Ding, Quanyi Wang, Henghui Ding, Wei Niu, Yanzhi Wang, Pu Zhao, Jun Lin, Jiuxiang Gu
cs.AI
초록
단안 깊이 추정(Monocular Depth Estimation, MDE)은 컴퓨터 비전 분야에서 중요한 과제로 부상하며, 다양한 실생활 애플리케이션을 지원하고 있습니다. 그러나 고정밀 깊이 추정 모델을 자원이 제한된 에지 디바이스, 특히 주문형 반도체(ASIC)에 배포하는 것은 높은 계산 및 메모리 요구량으로 인해 어려운 과제입니다. 최근 기본 깊이 추정 기술의 발전은 인상적인 결과를 제공하지만, ASIC에 배포하는 데 있어 더 큰 어려움을 야기하고 있습니다. 이를 해결하기 위해, 우리는 ASIC을 위한 하드웨어 가속을 통해 MDE 모델을 양자화하는 사후 학습 양자화(post-training quantization)를 채택한 QuartDepth를 제안합니다. 우리의 접근 방식은 가중치와 활성화를 4비트 정밀도로 양자화하여 모델 크기와 계산 비용을 줄이는 것입니다. 성능 저하를 완화하기 위해, 활성화 양자화 전후에 적용되는 활성화 다듬기 및 보상 알고리즘과 가중치 양자화에서의 오류를 최소화하기 위한 가중치 재구성 방법을 도입했습니다. 또한, 커널 융합과 맞춤형 명령어 프로그래밍 가능성을 지원하여 유연하고 프로그래밍 가능한 하드웨어 가속기를 설계하여 처리량과 효율성을 향상시켰습니다. 실험 결과는 우리의 프레임워크가 ASIC에서 빠른 추론과 높은 에너지 효율성을 달성하면서도 경쟁력 있는 정확도를 유지함으로써, 고성능 깊이 추정과 실용적인 에지 디바이스 적용 가능성 간의 격차를 줄이는 것을 보여줍니다. 코드: https://github.com/shawnricecake/quart-depth
English
Monocular Depth Estimation (MDE) has emerged as a pivotal task in computer
vision, supporting numerous real-world applications. However, deploying
accurate depth estimation models on resource-limited edge devices, especially
Application-Specific Integrated Circuits (ASICs), is challenging due to the
high computational and memory demands. Recent advancements in foundational
depth estimation deliver impressive results but further amplify the difficulty
of deployment on ASICs. To address this, we propose QuartDepth which adopts
post-training quantization to quantize MDE models with hardware accelerations
for ASICs. Our approach involves quantizing both weights and activations to
4-bit precision, reducing the model size and computation cost. To mitigate the
performance degradation, we introduce activation polishing and compensation
algorithm applied before and after activation quantization, as well as a weight
reconstruction method for minimizing errors in weight quantization.
Furthermore, we design a flexible and programmable hardware accelerator by
supporting kernel fusion and customized instruction programmability, enhancing
throughput and efficiency. Experimental results demonstrate that our framework
achieves competitive accuracy while enabling fast inference and higher energy
efficiency on ASICs, bridging the gap between high-performance depth estimation
and practical edge-device applicability. Code:
https://github.com/shawnricecake/quart-depthSummary
AI-Generated Summary