ChatPaper.aiChatPaper

GroupEnsemble: Stima Efficiente dell'Incertezza per il Rilevamento Oggetti Basato su DETR

GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection

March 2, 2026
Autori: Yutong Yang, Katarina Popović, Julian Wiederer, Markus Braun, Vasileios Belagiannis, Bin Yang
cs.AI

Abstract

Il Detection Transformer (DETR) e le sue varianti dimostrano prestazioni elevate nell'object detection, un compito fondamentale per i sistemi autonomi. Tuttavia, una limitazione critica di questi modelli è che i loro punteggi di confidenza riflettono solo l'incertezza semantica, non riuscendo a catturare l'incertezza spaziale, altrettanto importante. Ciò si traduce in una valutazione incompleta dell'affidabilità del rilevamento. D'altra parte, i Deep Ensemble possono affrontare questo problema fornendo stime di alta qualità dell'incertezza spaziale. Tuttavia, il loro enorme consumo di memoria li rende impraticabili per applicazioni nel mondo reale. Un'alternativa più economica, il Monte Carlo (MC) Dropout, soffre di un'elevata latenza a causa della necessità di molteplici passaggi in avanti durante l'inferenza per stimare l'incertezza. Per affrontare queste limitazioni, introduciamo GroupEnsemble, un metodo efficiente ed efficace per la stima dell'incertezza per modelli simili a DETR. GroupEnsemble prevede simultaneamente molteplici insiemi di rilevamento individuali alimentando il decoder del transformer durante l'inferenza con gruppi aggiuntivi e diversificati di object query. Ogni gruppo di query viene trasformato in isolamento dal decoder condiviso e predice un insieme di rilevamento completo per lo stesso input. Una maschera di attenzione viene applicata al decoder per prevenire interazioni tra le query di gruppi diversi, garantendo che ogni gruppo rilevi in modo indipendente per ottenere una stima dell'incertezza affidabile basata sull'ensemble. Sfruttando il parallelismo intrinseco del decoder, GroupEnsemble stima efficientemente l'incertezza in un unico passaggio in avanti, senza ripetizioni sequenziali. Abbiamo convalidato il nostro metodo in scenari di guida autonoma e scenari quotidiani comuni utilizzando rispettivamente i dataset Cityscapes e COCO. I risultati mostrano che un approccio ibrido che combina MC-Dropout e GroupEnsemble supera i Deep Ensemble su diverse metriche a una frazione del costo. Il codice è disponibile all'indirizzo https://github.com/yutongy98/GroupEnsemble.
English
Detection Transformer (DETR) and its variants show strong performance on object detection, a key task for autonomous systems. However, a critical limitation of these models is that their confidence scores only reflect semantic uncertainty, failing to capture the equally important spatial uncertainty. This results in an incomplete assessment of the detection reliability. On the other hand, Deep Ensembles can tackle this by providing high-quality spatial uncertainty estimates. However, their immense memory consumption makes them impractical for real-world applications. A cheaper alternative, Monte Carlo (MC) Dropout, suffers from high latency due to the need of multiple forward passes during inference to estimate uncertainty. To address these limitations, we introduce GroupEnsemble, an efficient and effective uncertainty estimation method for DETR-like models. GroupEnsemble simultaneously predicts multiple individual detection sets by feeding additional diverse groups of object queries to the transformer decoder during inference. Each query group is transformed by the shared decoder in isolation and predicts a complete detection set for the same input. An attention mask is applied to the decoder to prevent inter-group query interactions, ensuring each group detects independently to achieve reliable ensemble-based uncertainty estimation. By leveraging the decoder's inherent parallelism, GroupEnsemble efficiently estimates uncertainty in a single forward pass without sequential repetition. We validated our method under autonomous driving scenes and common daily scenes using the Cityscapes and COCO datasets, respectively. The results show that a hybrid approach combining MC-Dropout and GroupEnsemble outperforms Deep Ensembles on several metrics at a fraction of the cost. The code is available at https://github.com/yutongy98/GroupEnsemble.
PDF12March 17, 2026