Aprendendo Transformadores Visuais Robustos à Oclusão para Rastreamento de UAVs em Tempo Real
Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking
April 12, 2025
Autores: You Wu, Xucheng Wang, Xiangyang Yang, Mengyuan Liu, Dan Zeng, Hengzhou Ye, Shuiwang Li
cs.AI
Resumo
Arquiteturas de fluxo único que utilizam backbones de Vision Transformer (ViT) têm demonstrado grande potencial para rastreamento de UAVs em tempo real recentemente. No entanto, oclusões frequentes causadas por obstáculos como edifícios e árvores revelam uma grande limitação: esses modelos frequentemente carecem de estratégias para lidar efetivamente com oclusões. Novos métodos são necessários para aprimorar a resiliência a oclusões dos modelos de fluxo único baseados em ViT para rastreamento aéreo. Neste trabalho, propomos aprender Representações Robustas a Oclusões (ORR) baseadas em ViTs para rastreamento de UAVs, aplicando uma invariância da representação de características de um alvo em relação a operações de mascaramento aleatório modeladas por um processo espacial de Cox. Espera-se que esse mascaramento aleatório simule aproximadamente oclusões do alvo, permitindo-nos aprender ViTs que são robustas a oclusões para rastreamento de UAVs. Esse framework é denominado ORTrack. Além disso, para facilitar aplicações em tempo real, propomos um método de Distilação de Conhecimento Baseada em Características Adaptativas (AFKD) para criar um rastreador mais compacto, que imita adaptativamente o comportamento do modelo professor ORTrack de acordo com a dificuldade da tarefa. Esse modelo estudante, chamado ORTrack-D, mantém grande parte do desempenho do ORTrack enquanto oferece maior eficiência. Experimentos extensivos em múltiplos benchmarks validam a eficácia do nosso método, demonstrando seu desempenho de ponta. Os códigos estão disponíveis em https://github.com/wuyou3474/ORTrack.
English
Single-stream architectures using Vision Transformer (ViT) backbones show
great potential for real-time UAV tracking recently. However, frequent
occlusions from obstacles like buildings and trees expose a major drawback:
these models often lack strategies to handle occlusions effectively. New
methods are needed to enhance the occlusion resilience of single-stream ViT
models in aerial tracking. In this work, we propose to learn Occlusion-Robust
Representations (ORR) based on ViTs for UAV tracking by enforcing an invariance
of the feature representation of a target with respect to random masking
operations modeled by a spatial Cox process. Hopefully, this random masking
approximately simulates target occlusions, thereby enabling us to learn ViTs
that are robust to target occlusion for UAV tracking. This framework is termed
ORTrack. Additionally, to facilitate real-time applications, we propose an
Adaptive Feature-Based Knowledge Distillation (AFKD) method to create a more
compact tracker, which adaptively mimics the behavior of the teacher model
ORTrack according to the task's difficulty. This student model, dubbed
ORTrack-D, retains much of ORTrack's performance while offering higher
efficiency. Extensive experiments on multiple benchmarks validate the
effectiveness of our method, demonstrating its state-of-the-art performance.
Codes is available at https://github.com/wuyou3474/ORTrack.Summary
AI-Generated Summary