ChatPaper.aiChatPaper

Sparse Laneformer

Sparse Laneformer

April 11, 2024
Autores: Ji Liu, Zifeng Zhang, Mingjie Lu, Hongyang Wei, Dong Li, Yile Xie, Jinzhang Peng, Lu Tian, Ashish Sirasao, Emad Barsoum
cs.AI

Resumo

A detecção de faixas é uma tarefa fundamental na condução autônoma e alcançou grandes avanços com o surgimento do aprendizado profundo. Métodos anteriores baseados em âncoras frequentemente projetam âncoras densas, que dependem fortemente do conjunto de dados de treinamento e permanecem fixas durante a inferência. Analisamos que âncoras densas não são necessárias para a detecção de faixas e propomos um framework de detecção de faixas baseado em transformadores, utilizando um mecanismo de âncoras esparsas. Para isso, geramos âncoras esparsas com consultas de faixas com consciência de posição e consultas de ângulo, em vez de âncoras explícitas tradicionais. Adotamos a Atenção Perceptiva Horizontal (HPA) para agregar as características das faixas ao longo da direção horizontal e a Atenção Cruzada entre Faixa e Ângulo (LACA) para realizar interações entre as consultas de faixas e as consultas de ângulo. Também propomos a Atenção Perceptiva de Faixa (LPA), baseada na atenção cruzada deformável, para refinar ainda mais as previsões de faixas. Nosso método, denominado Sparse Laneformer, é de fácil implementação e treinável de ponta a ponta. Experimentos extensivos demonstram que o Sparse Laneformer supera favoravelmente os métodos state-of-the-art, por exemplo, superando o Laneformer em 3,0% no F1 score e o O2SFormer em 0,7% no F1 score, com menos MACs no CULane, utilizando a mesma backbone ResNet-34.
English
Lane detection is a fundamental task in autonomous driving, and has achieved great progress as deep learning emerges. Previous anchor-based methods often design dense anchors, which highly depend on the training dataset and remain fixed during inference. We analyze that dense anchors are not necessary for lane detection, and propose a transformer-based lane detection framework based on a sparse anchor mechanism. To this end, we generate sparse anchors with position-aware lane queries and angle queries instead of traditional explicit anchors. We adopt Horizontal Perceptual Attention (HPA) to aggregate the lane features along the horizontal direction, and adopt Lane-Angle Cross Attention (LACA) to perform interactions between lane queries and angle queries. We also propose Lane Perceptual Attention (LPA) based on deformable cross attention to further refine the lane predictions. Our method, named Sparse Laneformer, is easy-to-implement and end-to-end trainable. Extensive experiments demonstrate that Sparse Laneformer performs favorably against the state-of-the-art methods, e.g., surpassing Laneformer by 3.0% F1 score and O2SFormer by 0.7% F1 score with fewer MACs on CULane with the same ResNet-34 backbone.
PDF121December 15, 2024