ChatPaper.aiChatPaper

Dedelayed: Eliminazione del ritardo nell'inferenza remota tramite correzione sul dispositivo

Dedelayed: Deleting remote inference delay via on-device correction

October 15, 2025
Autori: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
cs.AI

Abstract

L'inferenza remota consente ai dispositivi leggeri di sfruttare modelli cloud potenti. Tuttavia, la latenza della rete di comunicazione rende le previsioni obsolete e inadatte per compiti in tempo reale. Per affrontare questo problema, introduciamo Dedelayed, un metodo correttivo del ritardo che mitiga i ritardi arbitrari dell'inferenza remota, permettendo al dispositivo locale di produrre output a bassa latenza in tempo reale. Il nostro metodo utilizza un modello locale leggero che elabora il frame corrente e fonde le caratteristiche calcolate da un modello remoto più complesso sui frame passati. Sul video del dataset di guida BDD100K, Dedelayed migliora l'accuratezza della segmentazione semantica rispetto al più forte dei baseline esclusivamente locale o esclusivamente remoto, per tutti i ritardi realistici della rete di comunicazione oltre i 33 ms. Senza causare ulteriori ritardi, migliora l'accuratezza di 6,4 mIoU rispetto all'inferenza completamente locale e di 9,8 mIoU rispetto all'inferenza remota, per un ritardo di andata e ritorno di 100 ms. Il vantaggio aumenta con ritardi più lunghi e scene con movimento più elevato, poiché l'inferenza divisa con mitigazione del ritardo mantiene l'accuratezza in modo più efficace, offrendo chiari vantaggi per compiti in tempo reale che devono rimanere allineati con lo stato attuale del mondo.
English
Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
PDF12October 16, 2025