Sparse Laneformer

Abstract

La rilevazione delle corsie è un compito fondamentale nella guida autonoma e ha compiuto notevoli progressi con l'avvento del deep learning. I metodi precedenti basati su ancore spesso progettano ancore dense, che dipendono fortemente dal dataset di addestramento e rimangono fisse durante l'inferenza. Analizziamo che le ancore dense non sono necessarie per la rilevazione delle corsie e proponiamo un framework di rilevazione delle corsie basato su transformer che utilizza un meccanismo di ancore sparse. A tal fine, generiamo ancore sparse con query di corsia consapevoli della posizione e query angolari, invece delle tradizionali ancore esplicite. Adottiamo l'Attenzione Percettiva Orizzontale (HPA) per aggregare le caratteristiche delle corsie lungo la direzione orizzontale e l'Attenzione Incrociata Corsia-Angolo (LACA) per eseguire interazioni tra le query di corsia e le query angolari. Proponiamo inoltre l'Attenzione Percettiva delle Corsie (LPA) basata sull'attenzione incrociata deformabile per perfezionare ulteriormente le previsioni delle corsie. Il nostro metodo, denominato Sparse Laneformer, è facile da implementare e addestrabile end-to-end. Esperimenti estensivi dimostrano che Sparse Laneformer si comporta favorevolmente rispetto ai metodi all'avanguardia, ad esempio superando Laneformer del 3,0% nel punteggio F1 e O2SFormer dello 0,7% nel punteggio F1 con un numero inferiore di MACs su CULane con lo stesso backbone ResNet-34.

English

Lane detection is a fundamental task in autonomous driving, and has achieved great progress as deep learning emerges. Previous anchor-based methods often design dense anchors, which highly depend on the training dataset and remain fixed during inference. We analyze that dense anchors are not necessary for lane detection, and propose a transformer-based lane detection framework based on a sparse anchor mechanism. To this end, we generate sparse anchors with position-aware lane queries and angle queries instead of traditional explicit anchors. We adopt Horizontal Perceptual Attention (HPA) to aggregate the lane features along the horizontal direction, and adopt Lane-Angle Cross Attention (LACA) to perform interactions between lane queries and angle queries. We also propose Lane Perceptual Attention (LPA) based on deformable cross attention to further refine the lane predictions. Our method, named Sparse Laneformer, is easy-to-implement and end-to-end trainable. Extensive experiments demonstrate that Sparse Laneformer performs favorably against the state-of-the-art methods, e.g., surpassing Laneformer by 3.0% F1 score and O2SFormer by 0.7% F1 score with fewer MACs on CULane with the same ResNet-34 backbone.