Dedelayed: Eliminación del retraso en la inferencia remota mediante corrección en el dispositivo
Dedelayed: Deleting remote inference delay via on-device correction
October 15, 2025
Autores: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
cs.AI
Resumen
La inferencia remota permite que dispositivos ligeros aprovechen modelos potentes en la nube. Sin embargo, la latencia de la red de comunicación hace que las predicciones se vuelvan obsoletas y no sean adecuadas para tareas en tiempo real. Para abordar este problema, presentamos Dedelayed, un método correctivo de retraso que mitiga los retrasos arbitrarios en la inferencia remota, permitiendo que el dispositivo local genere salidas de baja latencia en tiempo real. Nuestro método emplea un modelo local ligero que procesa el fotograma actual y fusiona características que un modelo remoto más pesado calcula a partir de fotogramas pasados. En videos del conjunto de datos de conducción BDD100K, Dedelayed mejora la precisión de la segmentación semántica en comparación con el mejor de los enfoques locales o remotos en todos los retrasos realistas de la red de comunicación superiores a 33 ms. Sin incurrir en retrasos adicionales, mejora la precisión en 6.4 mIoU en comparación con la inferencia completamente local y en 9.8 mIoU en comparación con la inferencia remota, para un retraso de ida y vuelta de 100 ms. La ventaja aumenta bajo retrasos más prolongados y escenas de mayor movimiento, ya que la inferencia dividida con mitigación de retraso mantiene la precisión de manera más efectiva, ofreciendo claras ventajas para tareas en tiempo real que deben permanecer alineadas con el estado actual del mundo.
English
Remote inference allows lightweight devices to leverage powerful cloud
models. However, communication network latency makes predictions stale and
unsuitable for real-time tasks. To address this, we introduce Dedelayed, a
delay-corrective method that mitigates arbitrary remote inference delays,
allowing the local device to produce low-latency outputs in real time. Our
method employs a lightweight local model that processes the current frame and
fuses in features that a heavyweight remote model computes from past frames. On
video from the BDD100K driving dataset, Dedelayed improves semantic
segmentation accuracy over the stronger of the local-only and remote-only
baselines across all realistic communication network delays beyond 33 ms.
Without incurring additional delay, it improves accuracy by 6.4 mIoU compared
to fully local inference and 9.8 mIoU compared to remote inference, for a
round-trip delay of 100 ms. The advantage grows under longer delays and
higher-motion scenes, as delay-mitigated split inference sustains accuracy more
effectively, providing clear advantages for real-time tasks that must remain
aligned with the current world state.