Dedelayed: Eliminación del retraso en la inferencia remota mediante corrección en el dispositivo

Resumen

La inferencia remota permite que dispositivos ligeros aprovechen modelos potentes en la nube. Sin embargo, la latencia de la red de comunicación hace que las predicciones se vuelvan obsoletas y no sean adecuadas para tareas en tiempo real. Para abordar este problema, presentamos Dedelayed, un método correctivo de retraso que mitiga los retrasos arbitrarios en la inferencia remota, permitiendo que el dispositivo local genere salidas de baja latencia en tiempo real. Nuestro método emplea un modelo local ligero que procesa el fotograma actual y fusiona características que un modelo remoto más pesado calcula a partir de fotogramas pasados. En videos del conjunto de datos de conducción BDD100K, Dedelayed mejora la precisión de la segmentación semántica en comparación con el mejor de los enfoques locales o remotos en todos los retrasos realistas de la red de comunicación superiores a 33 ms. Sin incurrir en retrasos adicionales, mejora la precisión en 6.4 mIoU en comparación con la inferencia completamente local y en 9.8 mIoU en comparación con la inferencia remota, para un retraso de ida y vuelta de 100 ms. La ventaja aumenta bajo retrasos más prolongados y escenas de mayor movimiento, ya que la inferencia dividida con mitigación de retraso mantiene la precisión de manera más efectiva, ofreciendo claras ventajas para tareas en tiempo real que deben permanecer alineadas con el estado actual del mundo.

English

Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.

Dedelayed: Eliminación del retraso en la inferencia remota mediante corrección en el dispositivo

Dedelayed: Deleting remote inference delay via on-device correction

Resumen

Support