Lernen von okklusionsrobusten Vision-Transformern für Echtzeit-UAV-Tracking

papers.abstract

Single-Stream-Architekturen, die auf Vision Transformer (ViT)-Backbones basieren, zeigen in letzter Zeit großes Potenzial für die Echtzeitverfolgung von UAVs (unbemannten Luftfahrzeugen). Häufige Verdeckungen durch Hindernisse wie Gebäude und Bäume offenbaren jedoch einen wesentlichen Nachteil: Diese Modelle verfügen oft nicht über effektive Strategien, um mit Verdeckungen umzugehen. Neue Methoden sind erforderlich, um die Widerstandsfähigkeit gegen Verdeckungen von Single-Stream-ViT-Modellen in der Luftverfolgung zu verbessern. In dieser Arbeit schlagen wir vor, verdeckungsrobuste Repräsentationen (Occlusion-Robust Representations, ORR) basierend auf ViTs für die UAV-Verfolgung zu erlernen, indem eine Invarianz der Merkmalsrepräsentation eines Ziels gegenüber zufälligen Maskierungsoperationen erzwungen wird, die durch einen räumlichen Cox-Prozess modelliert werden. Diese zufällige Maskierung simuliert hoffentlich Zielverdeckungen annähernd, wodurch wir in der Lage sind, ViTs zu erlernen, die robust gegenüber Zielverdeckungen für die UAV-Verfolgung sind. Dieser Rahmen wird als ORTrack bezeichnet. Zusätzlich schlagen wir, um Echtzeitanwendungen zu ermöglichen, eine adaptive, merkmalsbasierte Wissensdistillation (Adaptive Feature-Based Knowledge Distillation, AFKD) vor, um einen kompakteren Tracker zu erstellen, der das Verhalten des Lehrermodells ORTrack entsprechend der Schwierigkeit der Aufgabe adaptiv nachahmt. Dieses Schülermodell, genannt ORTrack-D, behält einen Großteil der Leistung von ORTrack bei und bietet gleichzeitig eine höhere Effizienz. Umfangreiche Experimente auf mehreren Benchmarks validieren die Wirksamkeit unserer Methode und demonstrieren ihre state-of-the-art Leistung. Der Code ist unter https://github.com/wuyou3474/ORTrack verfügbar.

English

Single-stream architectures using Vision Transformer (ViT) backbones show great potential for real-time UAV tracking recently. However, frequent occlusions from obstacles like buildings and trees expose a major drawback: these models often lack strategies to handle occlusions effectively. New methods are needed to enhance the occlusion resilience of single-stream ViT models in aerial tracking. In this work, we propose to learn Occlusion-Robust Representations (ORR) based on ViTs for UAV tracking by enforcing an invariance of the feature representation of a target with respect to random masking operations modeled by a spatial Cox process. Hopefully, this random masking approximately simulates target occlusions, thereby enabling us to learn ViTs that are robust to target occlusion for UAV tracking. This framework is termed ORTrack. Additionally, to facilitate real-time applications, we propose an Adaptive Feature-Based Knowledge Distillation (AFKD) method to create a more compact tracker, which adaptively mimics the behavior of the teacher model ORTrack according to the task's difficulty. This student model, dubbed ORTrack-D, retains much of ORTrack's performance while offering higher efficiency. Extensive experiments on multiple benchmarks validate the effectiveness of our method, demonstrating its state-of-the-art performance. Codes is available at https://github.com/wuyou3474/ORTrack.

Lernen von okklusionsrobusten Vision-Transformern für Echtzeit-UAV-Tracking

Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking

papers.abstract

Support