Dünner Laneformer

papers.abstract

Die Spurerkennung ist eine grundlegende Aufgabe beim autonomen Fahren und hat mit dem Aufkommen des Deep Learning große Fortschritte erzielt. Frühere ankerbasierte Methoden entwerfen oft dichte Anker, die stark vom Trainingsdatensatz abhängen und während der Inferenz unverändert bleiben. Wir analysieren, dass dichte Anker für die Spurerkennung nicht notwendig sind, und schlagen ein auf Transformer basierendes Spurerkennungs-Framework vor, das auf einem spärlichen Ankermechanismus basiert. Zu diesem Zweck generieren wir spärliche Anker mit positionsbewussten Spurabfragen und Winkelabfragen anstelle von traditionellen expliziten Ankern. Wir übernehmen die horizontale perzeptive Aufmerksamkeit (HPA), um die Spurmerkmale entlang der horizontalen Richtung zu aggregieren, und übernehmen die Spur-Winkel-Kreuz-Aufmerksamkeit (LACA), um Interaktionen zwischen Spurabfragen und Winkelabfragen durchzuführen. Wir schlagen auch die Spurperzeptive Aufmerksamkeit (LPA) basierend auf deformierbarer Kreuz-Aufmerksamkeit vor, um die Spurvorhersagen weiter zu verfeinern. Unsere Methode, genannt Sparse Laneformer, ist einfach umzusetzen und end-to-end trainierbar. Umfangreiche Experimente zeigen, dass Sparse Laneformer gegenüber den State-of-the-Art-Methoden günstig abschneidet, z. B. übertrifft er Laneformer um 3,0% F1-Score und O2SFormer um 0,7% F1-Score mit weniger MACs auf CULane mit dem gleichen ResNet-34-Backbone.

English

Lane detection is a fundamental task in autonomous driving, and has achieved great progress as deep learning emerges. Previous anchor-based methods often design dense anchors, which highly depend on the training dataset and remain fixed during inference. We analyze that dense anchors are not necessary for lane detection, and propose a transformer-based lane detection framework based on a sparse anchor mechanism. To this end, we generate sparse anchors with position-aware lane queries and angle queries instead of traditional explicit anchors. We adopt Horizontal Perceptual Attention (HPA) to aggregate the lane features along the horizontal direction, and adopt Lane-Angle Cross Attention (LACA) to perform interactions between lane queries and angle queries. We also propose Lane Perceptual Attention (LPA) based on deformable cross attention to further refine the lane predictions. Our method, named Sparse Laneformer, is easy-to-implement and end-to-end trainable. Extensive experiments demonstrate that Sparse Laneformer performs favorably against the state-of-the-art methods, e.g., surpassing Laneformer by 3.0% F1 score and O2SFormer by 0.7% F1 score with fewer MACs on CULane with the same ResNet-34 backbone.