Aprendendo Transformadores Visuais Robustos à Oclusão para Rastreamento de UAVs em Tempo Real

Resumo

Arquiteturas de fluxo único que utilizam backbones de Vision Transformer (ViT) têm demonstrado grande potencial para rastreamento de UAVs em tempo real recentemente. No entanto, oclusões frequentes causadas por obstáculos como edifícios e árvores revelam uma grande limitação: esses modelos frequentemente carecem de estratégias para lidar efetivamente com oclusões. Novos métodos são necessários para aprimorar a resiliência a oclusões dos modelos de fluxo único baseados em ViT para rastreamento aéreo. Neste trabalho, propomos aprender Representações Robustas a Oclusões (ORR) baseadas em ViTs para rastreamento de UAVs, aplicando uma invariância da representação de características de um alvo em relação a operações de mascaramento aleatório modeladas por um processo espacial de Cox. Espera-se que esse mascaramento aleatório simule aproximadamente oclusões do alvo, permitindo-nos aprender ViTs que são robustas a oclusões para rastreamento de UAVs. Esse framework é denominado ORTrack. Além disso, para facilitar aplicações em tempo real, propomos um método de Distilação de Conhecimento Baseada em Características Adaptativas (AFKD) para criar um rastreador mais compacto, que imita adaptativamente o comportamento do modelo professor ORTrack de acordo com a dificuldade da tarefa. Esse modelo estudante, chamado ORTrack-D, mantém grande parte do desempenho do ORTrack enquanto oferece maior eficiência. Experimentos extensivos em múltiplos benchmarks validam a eficácia do nosso método, demonstrando seu desempenho de ponta. Os códigos estão disponíveis em https://github.com/wuyou3474/ORTrack.

English

Single-stream architectures using Vision Transformer (ViT) backbones show great potential for real-time UAV tracking recently. However, frequent occlusions from obstacles like buildings and trees expose a major drawback: these models often lack strategies to handle occlusions effectively. New methods are needed to enhance the occlusion resilience of single-stream ViT models in aerial tracking. In this work, we propose to learn Occlusion-Robust Representations (ORR) based on ViTs for UAV tracking by enforcing an invariance of the feature representation of a target with respect to random masking operations modeled by a spatial Cox process. Hopefully, this random masking approximately simulates target occlusions, thereby enabling us to learn ViTs that are robust to target occlusion for UAV tracking. This framework is termed ORTrack. Additionally, to facilitate real-time applications, we propose an Adaptive Feature-Based Knowledge Distillation (AFKD) method to create a more compact tracker, which adaptively mimics the behavior of the teacher model ORTrack according to the task's difficulty. This student model, dubbed ORTrack-D, retains much of ORTrack's performance while offering higher efficiency. Extensive experiments on multiple benchmarks validate the effectiveness of our method, demonstrating its state-of-the-art performance. Codes is available at https://github.com/wuyou3474/ORTrack.

Aprendendo Transformadores Visuais Robustos à Oclusão para Rastreamento de UAVs em Tempo Real

Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking

Resumo

Summary

Support

Support