Dedelayed: 온디바이스 보정을 통한 원격 추론 지연 제거
Dedelayed: Deleting remote inference delay via on-device correction
October 15, 2025
저자: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
cs.AI
초록
원격 추론은 경량 디바이스가 강력한 클라우드 모델을 활용할 수 있게 해준다. 그러나 통신 네트워크 지연으로 인해 예측 결과가 실시간 작업에 적합하지 않게 된다. 이를 해결하기 위해, 우리는 임의의 원격 추론 지연을 완화하여 로컬 디바이스가 실시간으로 저지연 출력을 생성할 수 있도록 하는 지연 보정 방법인 Dedelayed를 소개한다. 우리의 방법은 현재 프레임을 처리하고, 과거 프레임에서 무거운 원격 모델이 계산한 특징을 융합하는 경량 로컬 모델을 사용한다. BDD100K 운전 데이터셋의 비디오에서 Dedelayed는 33ms 이상의 모든 현실적인 통신 네트워크 지연에 걸쳐 로컬 전용 및 원격 전용 기준선 중 더 강력한 모델보다 의미론적 분할 정확도를 향상시켰다. 추가 지연 없이, 100ms의 왕복 지연에서 완전 로컬 추론에 비해 6.4 mIoU, 원격 추론에 비해 9.8 mIoU의 정확도 향상을 달성했다. 이 장점은 더 긴 지연과 더 높은 동작 장면에서 더욱 커지며, 지연 완화 분할 추론은 정확도를 더 효과적으로 유지하여 현재 세계 상태와 일치해야 하는 실시간 작업에 명확한 이점을 제공한다.
English
Remote inference allows lightweight devices to leverage powerful cloud
models. However, communication network latency makes predictions stale and
unsuitable for real-time tasks. To address this, we introduce Dedelayed, a
delay-corrective method that mitigates arbitrary remote inference delays,
allowing the local device to produce low-latency outputs in real time. Our
method employs a lightweight local model that processes the current frame and
fuses in features that a heavyweight remote model computes from past frames. On
video from the BDD100K driving dataset, Dedelayed improves semantic
segmentation accuracy over the stronger of the local-only and remote-only
baselines across all realistic communication network delays beyond 33 ms.
Without incurring additional delay, it improves accuracy by 6.4 mIoU compared
to fully local inference and 9.8 mIoU compared to remote inference, for a
round-trip delay of 100 ms. The advantage grows under longer delays and
higher-motion scenes, as delay-mitigated split inference sustains accuracy more
effectively, providing clear advantages for real-time tasks that must remain
aligned with the current world state.