ChatPaper.aiChatPaper

Dedelayed : Suppression du délai d'inférence à distance via une correction sur l'appareil

Dedelayed: Deleting remote inference delay via on-device correction

October 15, 2025
papers.authors: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
cs.AI

papers.abstract

L'inférence à distance permet aux appareils légers de tirer parti de modèles cloud puissants. Cependant, la latence du réseau de communication rend les prédictions obsolètes et inadaptées aux tâches en temps réel. Pour résoudre ce problème, nous introduisons Dedelayed, une méthode corrective de délai qui atténue les retards arbitraires de l'inférence à distance, permettant à l'appareil local de produire des sorties à faible latence en temps réel. Notre méthode utilise un modèle local léger qui traite l'image actuelle et fusionne des caractéristiques calculées par un modèle distant plus lourd à partir d'images passées. Sur des vidéos du jeu de données de conduite BDD100K, Dedelayed améliore la précision de la segmentation sémantique par rapport à la meilleure des approches locales ou distantes pour tous les délais réalistes du réseau de communication dépassant 33 ms. Sans induire de délai supplémentaire, il améliore la précision de 6,4 mIoU par rapport à une inférence entièrement locale et de 9,8 mIoU par rapport à l'inférence distante, pour un délai aller-retour de 100 ms. L'avantage s'accroît avec des délais plus longs et des scènes à mouvement plus rapide, car l'inférence fractionnée avec atténuation des délais maintient la précision plus efficacement, offrant des avantages clairs pour les tâches en temps réel qui doivent rester alignées avec l'état actuel du monde.
English
Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
PDF12October 16, 2025