DiffusionLane: Модель диффузии для детектирования полос движения
DiffusionLane: Diffusion Model for Lane Detection
October 25, 2025
Авторы: Kunyang Zhou, Yeqin Shao
cs.AI
Аннотация
В данной статье представлена новая диффузионная модель для детектирования полос движения под названием DiffusionLane, которая рассматривает задачу детектирования полос как процесс денойзинговой диффузии в параметрическом пространстве полосы. Во-первых, мы добавляем гауссовский шум к параметрам (начальной точке и углу) эталонных полос для получения зашумленных якорей полос, и модель обучается постепенно уточнять эти зашумленные якоря для получения целевых полос. Во-вторых, мы предлагаем гибридную стратегию декодирования для решения проблемы слабого представления признаков в энкодере, вызванного зашумленными якорями полос. В частности, мы разрабатываем гибридный диффузионный декодер, сочетающий декодеры глобального и локального уровней для получения высококачественных якорей полос. Затем для улучшения представления признаков в энкодере мы используем вспомогательную голову на этапе обучения, применяя обучаемые якоря полос для обогащения supervision над энкодером. Результаты экспериментов на четырех наборах данных (Carlane, Tusimple, CULane и LLAMAS) показывают, что DiffusionLane обладает высокой способностью к обобщению и перспективной производительностью детектирования по сравнению с предыдущими передовыми методами. Например, DiffusionLane с ResNet18 превосходит существующие методы как минимум на 1% по точности на наборе данных для адаптации домена Carlane. Кроме того, DiffusionLane с MobileNetV4 достигает 81,32% F1-меры на CULane, 96,89% точности на Tusimple с ResNet34 и 97,59% F1-меры на LLAMAS с ResNet101. Код будет доступен по адресу https://github.com/zkyntu/UnLanedet.
English
In this paper, we present a novel diffusion-based model for lane detection,
called DiffusionLane, which treats the lane detection task as a denoising
diffusion process in the parameter space of the lane. Firstly, we add the
Gaussian noise to the parameters (the starting point and the angle) of ground
truth lanes to obtain noisy lane anchors, and the model learns to refine the
noisy lane anchors in a progressive way to obtain the target lanes. Secondly,
we propose a hybrid decoding strategy to address the poor feature
representation of the encoder, resulting from the noisy lane anchors.
Specifically, we design a hybrid diffusion decoder to combine global-level and
local-level decoders for high-quality lane anchors. Then, to improve the
feature representation of the encoder, we employ an auxiliary head in the
training stage to adopt the learnable lane anchors for enriching the
supervision on the encoder. Experimental results on four benchmarks, Carlane,
Tusimple, CULane, and LLAMAS, show that DiffusionLane possesses a strong
generalization ability and promising detection performance compared to the
previous state-of-the-art methods. For example, DiffusionLane with ResNet18
surpasses the existing methods by at least 1\% accuracy on the domain
adaptation dataset Carlane. Besides, DiffusionLane with MobileNetV4 gets
81.32\% F1 score on CULane, 96.89\% accuracy on Tusimple with ResNet34, and
97.59\% F1 score on LLAMAS with ResNet101. Code will be available at
https://github.com/zkyntu/UnLanedet.