ChatPaper.aiChatPaper

Dedelayed: Eliminando o atraso de inferência remota por meio de correção no dispositivo

Dedelayed: Deleting remote inference delay via on-device correction

October 15, 2025
Autores: Dan Jacobellis, Mateen Ulhaq, Fabien Racapé, Hyomin Choi, Neeraja J. Yadwadkar
cs.AI

Resumo

A inferência remota permite que dispositivos leves aproveitem modelos poderosos na nuvem. No entanto, a latência da rede de comunicação torna as previsões desatualizadas e inadequadas para tarefas em tempo real. Para resolver isso, introduzimos o Dedelayed, um método corretivo de atraso que mitiga atrasos arbitrários na inferência remota, permitindo que o dispositivo local produza saídas de baixa latência em tempo real. Nosso método emprega um modelo local leve que processa o quadro atual e funde características que um modelo remoto pesado calcula a partir de quadros passados. Em vídeos do conjunto de dados de direção BDD100K, o Dedelayed melhora a precisão da segmentação semântica em relação ao mais forte dos baselines apenas local ou apenas remoto em todos os atrasos realistas da rede de comunicação além de 33 ms. Sem incorrer em atraso adicional, ele melhora a precisão em 6,4 mIoU em comparação com a inferência totalmente local e 9,8 mIoU em comparação com a inferência remota, para um atraso de ida e volta de 100 ms. A vantagem aumenta sob atrasos mais longos e cenas de maior movimento, pois a inferência dividida com mitigação de atraso sustenta a precisão de forma mais eficaz, proporcionando vantagens claras para tarefas em tempo real que devem permanecer alinhadas com o estado atual do mundo.
English
Remote inference allows lightweight devices to leverage powerful cloud models. However, communication network latency makes predictions stale and unsuitable for real-time tasks. To address this, we introduce Dedelayed, a delay-corrective method that mitigates arbitrary remote inference delays, allowing the local device to produce low-latency outputs in real time. Our method employs a lightweight local model that processes the current frame and fuses in features that a heavyweight remote model computes from past frames. On video from the BDD100K driving dataset, Dedelayed improves semantic segmentation accuracy over the stronger of the local-only and remote-only baselines across all realistic communication network delays beyond 33 ms. Without incurring additional delay, it improves accuracy by 6.4 mIoU compared to fully local inference and 9.8 mIoU compared to remote inference, for a round-trip delay of 100 ms. The advantage grows under longer delays and higher-motion scenes, as delay-mitigated split inference sustains accuracy more effectively, providing clear advantages for real-time tasks that must remain aligned with the current world state.
PDF12October 16, 2025