Разреженный Лейнформер

Аннотация

Обнаружение полос движения является фундаментальной задачей в автономном вождении и достигло значительного прогресса с развитием глубокого обучения. Предыдущие методы на основе якорей часто разрабатывали плотные якоря, которые сильно зависят от обучающего набора данных и остаются неизменными во время вывода. Мы анализируем, что плотные якоря не являются необходимыми для обнаружения полос движения, и предлагаем основанную на трансформере архитектуру обнаружения полос движения на основе разреженного механизма якорей. Для этого мы генерируем разреженные якоря с позиционно-осведомленными запросами полосы и запросами углов вместо традиционных явных якорей. Мы используем Горизонтальное Восприимчивое Внимание (HPA) для агрегации признаков полосы вдоль горизонтального направления и применяем Перекрестное Внимание Полосы-Угла (LACA) для взаимодействия между запросами полосы и запросами углов. Мы также предлагаем Внимание Полосы (LPA) на основе деформируемого перекрестного внимания для дальнейшего уточнения прогнозов полосы. Наш метод, названный Разреженный Лейнеформер, легко реализуем и обучаем на конечный результат. Обширные эксперименты показывают, что Разреженный Лейнеформер проявляет себя лучше по сравнению с современными методами, например, превосходя Лейнеформер на 3,0% по оценке F1 и O2SFormer на 0,7% по оценке F1 с меньшим количеством MACs на наборе данных CULane с той же основой ResNet-34.

English

Lane detection is a fundamental task in autonomous driving, and has achieved great progress as deep learning emerges. Previous anchor-based methods often design dense anchors, which highly depend on the training dataset and remain fixed during inference. We analyze that dense anchors are not necessary for lane detection, and propose a transformer-based lane detection framework based on a sparse anchor mechanism. To this end, we generate sparse anchors with position-aware lane queries and angle queries instead of traditional explicit anchors. We adopt Horizontal Perceptual Attention (HPA) to aggregate the lane features along the horizontal direction, and adopt Lane-Angle Cross Attention (LACA) to perform interactions between lane queries and angle queries. We also propose Lane Perceptual Attention (LPA) based on deformable cross attention to further refine the lane predictions. Our method, named Sparse Laneformer, is easy-to-implement and end-to-end trainable. Extensive experiments demonstrate that Sparse Laneformer performs favorably against the state-of-the-art methods, e.g., surpassing Laneformer by 3.0% F1 score and O2SFormer by 0.7% F1 score with fewer MACs on CULane with the same ResNet-34 backbone.