QuartDepth: エッジデバイス向けリアルタイム深度推定のためのポストトレーニング量子化
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge
March 20, 2025
著者: Xuan Shen, Weize Ma, Jing Liu, Changdi Yang, Rui Ding, Quanyi Wang, Henghui Ding, Wei Niu, Yanzhi Wang, Pu Zhao, Jun Lin, Jiuxiang Gu
cs.AI
要旨
単眼深度推定(Monocular Depth Estimation: MDE)は、コンピュータビジョンにおける重要なタスクとして登場し、数多くの実世界のアプリケーションを支えています。しかし、リソースが限られたエッジデバイス、特に特定用途向け集積回路(ASIC)上で正確な深度推定モデルを展開することは、高い計算量とメモリ要求のため困難です。最近の基盤的な深度推定の進歩は印象的な結果をもたらしていますが、ASICへの展開の難易度をさらに高めています。この問題に対処するため、我々はQuartDepthを提案します。これは、ASIC向けのハードウェアアクセラレーションを活用してMDEモデルを量子化するために、学習後量子化(post-training quantization)を採用しています。我々のアプローチでは、重みと活性化の両方を4ビット精度に量子化し、モデルサイズと計算コストを削減します。性能低下を軽減するために、活性化量子化の前後に適用する活性化研磨と補償アルゴリズム、および重み量子化の誤差を最小化するための重み再構築法を導入しています。さらに、カーネル融合とカスタマイズされた命令プログラマビリティをサポートすることで、柔軟でプログラム可能なハードウェアアクセラレータを設計し、スループットと効率を向上させています。実験結果は、我々のフレームワークが競争力のある精度を達成しつつ、ASIC上での高速推論と高いエネルギー効率を実現し、高性能な深度推定と実用的なエッジデバイス適用性のギャップを埋めることを示しています。コード: https://github.com/shawnricecake/quart-depth
English
Monocular Depth Estimation (MDE) has emerged as a pivotal task in computer
vision, supporting numerous real-world applications. However, deploying
accurate depth estimation models on resource-limited edge devices, especially
Application-Specific Integrated Circuits (ASICs), is challenging due to the
high computational and memory demands. Recent advancements in foundational
depth estimation deliver impressive results but further amplify the difficulty
of deployment on ASICs. To address this, we propose QuartDepth which adopts
post-training quantization to quantize MDE models with hardware accelerations
for ASICs. Our approach involves quantizing both weights and activations to
4-bit precision, reducing the model size and computation cost. To mitigate the
performance degradation, we introduce activation polishing and compensation
algorithm applied before and after activation quantization, as well as a weight
reconstruction method for minimizing errors in weight quantization.
Furthermore, we design a flexible and programmable hardware accelerator by
supporting kernel fusion and customized instruction programmability, enhancing
throughput and efficiency. Experimental results demonstrate that our framework
achieves competitive accuracy while enabling fast inference and higher energy
efficiency on ASICs, bridging the gap between high-performance depth estimation
and practical edge-device applicability. Code:
https://github.com/shawnricecake/quart-depthSummary
AI-Generated Summary