DiffusionLane: Modello di Diffusione per il Rilevamento delle Corsie
DiffusionLane: Diffusion Model for Lane Detection
October 25, 2025
Autori: Kunyang Zhou, Yeqin Shao
cs.AI
Abstract
In questo articolo presentiamo un modello innovativo basato sulla diffusione per il rilevamento delle corsie, denominato DiffusionLane, che affronta il compito del rilevamento delle corsie come un processo di diffusione di denoising nello spazio parametrico della corsia. In primo luogo, aggiungiamo rumore gaussiano ai parametri (punto di partenza e angolo) delle corsie ground truth per ottenere ancore di corsia rumorose, e il modello apprende a raffinare queste ancore in modo progressivo per ottenere le corsie target. In secondo luogo, proponiamo una strategia di decodifica ibrida per affrontare la scarsa rappresentazione delle feature dell'encoder, causata dalle ancore di corsia rumorose. Nello specifico, progettiamo un decoder di diffusione ibrido che combina decoder a livello globale e a livello locale per generare ancore di corsia di alta qualità. Quindi, per migliorare la rappresentazione delle feature dell'encoder, impieghiamo una testa ausiliaria nella fase di addestramento per adottare ancore di corsia apprendibili, arricchendo così la supervisione sull'encoder. I risultati sperimentali su quattro benchmark, Carlane, Tusimple, CULane e LLAMAS, dimostrano che DiffusionLane possiede una forte capacità di generalizzazione e prestazioni di rilevamento promettenti rispetto ai precedenti metodi state-of-the-art. Ad esempio, DiffusionLane con ResNet18 supera i metodi esistenti di almeno l'1% in accuratezza sul dataset di adattamento di dominio Carlane. Inoltre, DiffusionLane con MobileNetV4 ottiene un punteggio F1 dell'81,32% su CULane, un'accuratezza del 96,89% su Tusimple con ResNet34, e un punteggio F1 del 97,59% su LLAMAS con ResNet101. Il codice sarà disponibile all'indirizzo https://github.com/zkyntu/UnLanedet.
English
In this paper, we present a novel diffusion-based model for lane detection,
called DiffusionLane, which treats the lane detection task as a denoising
diffusion process in the parameter space of the lane. Firstly, we add the
Gaussian noise to the parameters (the starting point and the angle) of ground
truth lanes to obtain noisy lane anchors, and the model learns to refine the
noisy lane anchors in a progressive way to obtain the target lanes. Secondly,
we propose a hybrid decoding strategy to address the poor feature
representation of the encoder, resulting from the noisy lane anchors.
Specifically, we design a hybrid diffusion decoder to combine global-level and
local-level decoders for high-quality lane anchors. Then, to improve the
feature representation of the encoder, we employ an auxiliary head in the
training stage to adopt the learnable lane anchors for enriching the
supervision on the encoder. Experimental results on four benchmarks, Carlane,
Tusimple, CULane, and LLAMAS, show that DiffusionLane possesses a strong
generalization ability and promising detection performance compared to the
previous state-of-the-art methods. For example, DiffusionLane with ResNet18
surpasses the existing methods by at least 1\% accuracy on the domain
adaptation dataset Carlane. Besides, DiffusionLane with MobileNetV4 gets
81.32\% F1 score on CULane, 96.89\% accuracy on Tusimple with ResNet34, and
97.59\% F1 score on LLAMAS with ResNet101. Code will be available at
https://github.com/zkyntu/UnLanedet.