ChatPaper.aiChatPaper

Dedelayed: Het verwijderen van vertraging bij remote inference via on-device correctie

Dedelayed: Deleting remote inference delay via on-device correction

October 15, 2025
Auteurs: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
cs.AI

Samenvatting

Remote inference maakt het mogelijk dat lichtgewicht apparaten gebruik kunnen maken van krachtige cloudmodellen. Echter, maakt de latentie van het communicatienetwerk voorspellingen verouderd en ongeschikt voor real-time taken. Om dit aan te pakken, introduceren we Dedelayed, een methode voor vertragingscorrectie die willekeurige vertragingen bij remote inference vermindert, waardoor het lokale apparaat real-time uitvoer met lage latentie kan produceren. Onze methode maakt gebruik van een lichtgewicht lokaal model dat het huidige frame verwerkt en features integreert die een zwaarwegend remote model berekent uit vorige frames. Op video's van het BDD100K rijdataset verbetert Dedelayed de nauwkeurigheid van semantische segmentatie ten opzichte van de sterkste van de lokaal-only en remote-only baselines bij alle realistische communicatienetwerkvertragingen van meer dan 33 ms. Zonder extra vertraging te veroorzaken, verbetert het de nauwkeurigheid met 6.4 mIoU vergeleken met volledig lokale inference en 9.8 mIoU vergeleken met remote inference, bij een round-trip vertraging van 100 ms. Het voordeel neemt toe bij langere vertragingen en scènes met hogere beweging, omdat vertragingsgemitigeerde gesplitste inference de nauwkeurigheid effectiever behoudt, wat duidelijke voordelen biedt voor real-time taken die afgestemd moeten blijven op de huidige wereldtoestand.
English
Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
PDF12October 16, 2025