DiffusionLane : Modèle de diffusion pour la détection de voies
DiffusionLane: Diffusion Model for Lane Detection
October 25, 2025
papers.authors: Kunyang Zhou, Yeqin Shao
cs.AI
papers.abstract
Dans cet article, nous présentons un nouveau modèle basé sur la diffusion pour la détection de voies, appelé DiffusionLane, qui traite la tâche de détection de voies comme un processus de diffusion par débruitage dans l'espace paramétrique de la voie. Premièrement, nous ajoutons un bruit gaussien aux paramètres (le point de départ et l'angle) des voies de référence pour obtenir des ancres de voie bruitées, et le modèle apprend à affiner ces ancres de manière progressive pour obtenir les voies cibles. Deuxièmement, nous proposons une stratégie de décodage hybride pour remédier à la mauvaise représentation des caractéristiques de l'encodeur, résultant des ancres de voie bruitées. Plus précisément, nous concevons un décodeur de diffusion hybride qui combine des décodeurs de niveau global et de niveau local pour produire des ancres de voie de haute qualité. Ensuite, pour améliorer la représentation des caractéristiques de l'encodeur, nous utilisons une tête auxiliaire lors de la phase d'entraînement pour adopter des ancres de voie apprenables afin d'enrichir la supervision de l'encodeur. Les résultats expérimentaux sur quatre benchmarks, Carlane, Tusimple, CULane et LLAMAS, montrent que DiffusionLane possède une forte capacité de généralisation et des performances de détection prometteuses par rapport aux méthodes précédentes de l'état de l'art. Par exemple, DiffusionLane avec ResNet18 surpasse les méthodes existantes d'au moins 1 % en précision sur l'ensemble de données d'adaptation de domaine Carlane. Par ailleurs, DiffusionLane avec MobileNetV4 obtient un score F1 de 81,32 % sur CULane, une précision de 96,89 % sur Tusimple avec ResNet34, et un score F1 de 97,59 % sur LLAMAS avec ResNet101. Le code sera disponible à l'adresse https://github.com/zkyntu/UnLanedet.
English
In this paper, we present a novel diffusion-based model for lane detection,
called DiffusionLane, which treats the lane detection task as a denoising
diffusion process in the parameter space of the lane. Firstly, we add the
Gaussian noise to the parameters (the starting point and the angle) of ground
truth lanes to obtain noisy lane anchors, and the model learns to refine the
noisy lane anchors in a progressive way to obtain the target lanes. Secondly,
we propose a hybrid decoding strategy to address the poor feature
representation of the encoder, resulting from the noisy lane anchors.
Specifically, we design a hybrid diffusion decoder to combine global-level and
local-level decoders for high-quality lane anchors. Then, to improve the
feature representation of the encoder, we employ an auxiliary head in the
training stage to adopt the learnable lane anchors for enriching the
supervision on the encoder. Experimental results on four benchmarks, Carlane,
Tusimple, CULane, and LLAMAS, show that DiffusionLane possesses a strong
generalization ability and promising detection performance compared to the
previous state-of-the-art methods. For example, DiffusionLane with ResNet18
surpasses the existing methods by at least 1\% accuracy on the domain
adaptation dataset Carlane. Besides, DiffusionLane with MobileNetV4 gets
81.32\% F1 score on CULane, 96.89\% accuracy on Tusimple with ResNet34, and
97.59\% F1 score on LLAMAS with ResNet101. Code will be available at
https://github.com/zkyntu/UnLanedet.