DiffusionLane: Modello di Diffusione per il Rilevamento delle Corsie

Abstract

In questo articolo presentiamo un modello innovativo basato sulla diffusione per il rilevamento delle corsie, denominato DiffusionLane, che affronta il compito del rilevamento delle corsie come un processo di diffusione di denoising nello spazio parametrico della corsia. In primo luogo, aggiungiamo rumore gaussiano ai parametri (punto di partenza e angolo) delle corsie ground truth per ottenere ancore di corsia rumorose, e il modello apprende a raffinare queste ancore in modo progressivo per ottenere le corsie target. In secondo luogo, proponiamo una strategia di decodifica ibrida per affrontare la scarsa rappresentazione delle feature dell'encoder, causata dalle ancore di corsia rumorose. Nello specifico, progettiamo un decoder di diffusione ibrido che combina decoder a livello globale e a livello locale per generare ancore di corsia di alta qualità. Quindi, per migliorare la rappresentazione delle feature dell'encoder, impieghiamo una testa ausiliaria nella fase di addestramento per adottare ancore di corsia apprendibili, arricchendo così la supervisione sull'encoder. I risultati sperimentali su quattro benchmark, Carlane, Tusimple, CULane e LLAMAS, dimostrano che DiffusionLane possiede una forte capacità di generalizzazione e prestazioni di rilevamento promettenti rispetto ai precedenti metodi state-of-the-art. Ad esempio, DiffusionLane con ResNet18 supera i metodi esistenti di almeno l'1% in accuratezza sul dataset di adattamento di dominio Carlane. Inoltre, DiffusionLane con MobileNetV4 ottiene un punteggio F1 dell'81,32% su CULane, un'accuratezza del 96,89% su Tusimple con ResNet34, e un punteggio F1 del 97,59% su LLAMAS con ResNet101. Il codice sarà disponibile all'indirizzo https://github.com/zkyntu/UnLanedet.

English

In this paper, we present a novel diffusion-based model for lane detection, called DiffusionLane, which treats the lane detection task as a denoising diffusion process in the parameter space of the lane. Firstly, we add the Gaussian noise to the parameters (the starting point and the angle) of ground truth lanes to obtain noisy lane anchors, and the model learns to refine the noisy lane anchors in a progressive way to obtain the target lanes. Secondly, we propose a hybrid decoding strategy to address the poor feature representation of the encoder, resulting from the noisy lane anchors. Specifically, we design a hybrid diffusion decoder to combine global-level and local-level decoders for high-quality lane anchors. Then, to improve the feature representation of the encoder, we employ an auxiliary head in the training stage to adopt the learnable lane anchors for enriching the supervision on the encoder. Experimental results on four benchmarks, Carlane, Tusimple, CULane, and LLAMAS, show that DiffusionLane possesses a strong generalization ability and promising detection performance compared to the previous state-of-the-art methods. For example, DiffusionLane with ResNet18 surpasses the existing methods by at least 1\% accuracy on the domain adaptation dataset Carlane. Besides, DiffusionLane with MobileNetV4 gets 81.32\% F1 score on CULane, 96.89\% accuracy on Tusimple with ResNet34, and 97.59\% F1 score on LLAMAS with ResNet101. Code will be available at https://github.com/zkyntu/UnLanedet.

DiffusionLane: Modello di Diffusione per il Rilevamento delle Corsie

DiffusionLane: Diffusion Model for Lane Detection

Abstract

Support