ChatPaper.aiChatPaper

Dedelayed: Beseitigung der Remote-Inferenzverzögerung durch On-Device-Korrektur

Dedelayed: Deleting remote inference delay via on-device correction

October 15, 2025
papers.authors: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
cs.AI

papers.abstract

Remote Inference ermöglicht es leistungsschwachen Geräten, leistungsstarke Cloud-Modelle zu nutzen. Allerdings führt die Latenz des Kommunikationsnetzwerks dazu, dass Vorhersagen veraltet und für Echtzeitaufgaben ungeeignet sind. Um dies zu beheben, stellen wir Dedelayed vor, eine verzögerungskorrigierende Methode, die beliebige Verzögerungen beim Remote Inference abmildert und es dem lokalen Gerät ermöglicht, Echtzeitausgaben mit geringer Latenz zu erzeugen. Unsere Methode verwendet ein leichtgewichtiges lokales Modell, das den aktuellen Frame verarbeitet und Merkmale einbindet, die ein leistungsstarkes Remote-Modell aus vergangenen Frames berechnet. Bei Videos aus dem BDD100K-Fahrdatensatz verbessert Dedelayed die Genauigkeit der semantischen Segmentierung im Vergleich zu den stärkeren der rein lokalen und rein remote-basierten Baseline-Modelle bei allen realistischen Kommunikationsnetzwerkverzögerungen über 33 ms. Ohne zusätzliche Verzögerung zu verursachen, steigert es die Genauigkeit um 6,4 mIoU im Vergleich zu vollständig lokalem Inference und um 9,8 mIoU im Vergleich zu Remote Inference bei einer Round-Trip-Verzögerung von 100 ms. Der Vorteil vergrößert sich bei längeren Verzögerungen und Szenen mit höherer Bewegung, da das verzögerungsgeminderte Split Inference die Genauigkeit effektiver aufrechterhält und klare Vorteile für Echtzeitaufgaben bietet, die mit dem aktuellen Weltzustand synchron bleiben müssen.
English
Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
PDF12October 16, 2025