ChatPaper.aiChatPaper

DiffusionLane: Modelo de Difusão para Detecção de Faixas

DiffusionLane: Diffusion Model for Lane Detection

October 25, 2025
Autores: Kunyang Zhou, Yeqin Shao
cs.AI

Resumo

Neste artigo, apresentamos um novo modelo baseado em difusão para detecção de faixas, denominado DiffusionLane, que trata a tarefa de detecção de faixas como um processo de difusão de remoção de ruído no espaço de parâmetros da faixa. Primeiramente, adicionamos ruído Gaussiano aos parâmetros (ponto inicial e ângulo) das faixas de referência (ground truth) para obter âncoras de faixa ruidosas, e o modelo aprende a refinar essas âncoras de forma progressiva para obter as faixas alvo. Em segundo lugar, propomos uma estratégia de decodificação híbrida para abordar a fraca representação de características do codificador, resultante das âncoras de faixa ruidosas. Especificamente, projetamos um decodificador de difusão híbrido para combinar decodificadores de nível global e nível local, visando âncoras de faixa de alta qualidade. Em seguida, para melhorar a representação de características do codificador, empregamos um cabeçalho auxiliar na fase de treinamento para adotar âncoras de faixa aprendíveis, enriquecendo assim a supervisão sobre o codificador. Resultados experimentais em quatro benchmarks, Carlane, Tusimple, CULane e LLAMAS, mostram que o DiffusionLane possui uma forte capacidade de generalização e um desempenho de detecção promissor em comparação com os métodos state-of-the-art anteriores. Por exemplo, o DiffusionLane com ResNet18 supera os métodos existentes em pelo menos 1% de precisão no conjunto de dados de adaptação de domínio Carlane. Além disso, o DiffusionLane com MobileNetV4 obtém 81,32% de pontuação F1 no CULane, 96,89% de precisão no Tusimple com ResNet34 e 97,59% de pontuação F1 no LLAMAS com ResNet101. O código estará disponível em https://github.com/zkyntu/UnLanedet.
English
In this paper, we present a novel diffusion-based model for lane detection, called DiffusionLane, which treats the lane detection task as a denoising diffusion process in the parameter space of the lane. Firstly, we add the Gaussian noise to the parameters (the starting point and the angle) of ground truth lanes to obtain noisy lane anchors, and the model learns to refine the noisy lane anchors in a progressive way to obtain the target lanes. Secondly, we propose a hybrid decoding strategy to address the poor feature representation of the encoder, resulting from the noisy lane anchors. Specifically, we design a hybrid diffusion decoder to combine global-level and local-level decoders for high-quality lane anchors. Then, to improve the feature representation of the encoder, we employ an auxiliary head in the training stage to adopt the learnable lane anchors for enriching the supervision on the encoder. Experimental results on four benchmarks, Carlane, Tusimple, CULane, and LLAMAS, show that DiffusionLane possesses a strong generalization ability and promising detection performance compared to the previous state-of-the-art methods. For example, DiffusionLane with ResNet18 surpasses the existing methods by at least 1\% accuracy on the domain adaptation dataset Carlane. Besides, DiffusionLane with MobileNetV4 gets 81.32\% F1 score on CULane, 96.89\% accuracy on Tusimple with ResNet34, and 97.59\% F1 score on LLAMAS with ResNet101. Code will be available at https://github.com/zkyntu/UnLanedet.
PDF31December 31, 2025