Lernen von okklusionsrobusten Vision-Transformern für Echtzeit-UAV-Tracking
Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking
April 12, 2025
Autoren: You Wu, Xucheng Wang, Xiangyang Yang, Mengyuan Liu, Dan Zeng, Hengzhou Ye, Shuiwang Li
cs.AI
Zusammenfassung
Single-Stream-Architekturen, die auf Vision Transformer (ViT)-Backbones basieren, zeigen in letzter Zeit großes Potenzial für die Echtzeitverfolgung von UAVs (unbemannten Luftfahrzeugen). Häufige Verdeckungen durch Hindernisse wie Gebäude und Bäume offenbaren jedoch einen wesentlichen Nachteil: Diese Modelle verfügen oft nicht über effektive Strategien, um mit Verdeckungen umzugehen. Neue Methoden sind erforderlich, um die Widerstandsfähigkeit gegen Verdeckungen von Single-Stream-ViT-Modellen in der Luftverfolgung zu verbessern. In dieser Arbeit schlagen wir vor, verdeckungsrobuste Repräsentationen (Occlusion-Robust Representations, ORR) basierend auf ViTs für die UAV-Verfolgung zu erlernen, indem eine Invarianz der Merkmalsrepräsentation eines Ziels gegenüber zufälligen Maskierungsoperationen erzwungen wird, die durch einen räumlichen Cox-Prozess modelliert werden. Diese zufällige Maskierung simuliert hoffentlich Zielverdeckungen annähernd, wodurch wir in der Lage sind, ViTs zu erlernen, die robust gegenüber Zielverdeckungen für die UAV-Verfolgung sind. Dieser Rahmen wird als ORTrack bezeichnet. Zusätzlich schlagen wir, um Echtzeitanwendungen zu ermöglichen, eine adaptive, merkmalsbasierte Wissensdistillation (Adaptive Feature-Based Knowledge Distillation, AFKD) vor, um einen kompakteren Tracker zu erstellen, der das Verhalten des Lehrermodells ORTrack entsprechend der Schwierigkeit der Aufgabe adaptiv nachahmt. Dieses Schülermodell, genannt ORTrack-D, behält einen Großteil der Leistung von ORTrack bei und bietet gleichzeitig eine höhere Effizienz. Umfangreiche Experimente auf mehreren Benchmarks validieren die Wirksamkeit unserer Methode und demonstrieren ihre state-of-the-art Leistung. Der Code ist unter https://github.com/wuyou3474/ORTrack verfügbar.
English
Single-stream architectures using Vision Transformer (ViT) backbones show
great potential for real-time UAV tracking recently. However, frequent
occlusions from obstacles like buildings and trees expose a major drawback:
these models often lack strategies to handle occlusions effectively. New
methods are needed to enhance the occlusion resilience of single-stream ViT
models in aerial tracking. In this work, we propose to learn Occlusion-Robust
Representations (ORR) based on ViTs for UAV tracking by enforcing an invariance
of the feature representation of a target with respect to random masking
operations modeled by a spatial Cox process. Hopefully, this random masking
approximately simulates target occlusions, thereby enabling us to learn ViTs
that are robust to target occlusion for UAV tracking. This framework is termed
ORTrack. Additionally, to facilitate real-time applications, we propose an
Adaptive Feature-Based Knowledge Distillation (AFKD) method to create a more
compact tracker, which adaptively mimics the behavior of the teacher model
ORTrack according to the task's difficulty. This student model, dubbed
ORTrack-D, retains much of ORTrack's performance while offering higher
efficiency. Extensive experiments on multiple benchmarks validate the
effectiveness of our method, demonstrating its state-of-the-art performance.
Codes is available at https://github.com/wuyou3474/ORTrack.Summary
AI-Generated Summary