GroupEnsemble: Estimación Eficiente de Incertidumbre para Detección de Objetos Basada en DETR
GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection
March 2, 2026
Autores: Yutong Yang, Katarina Popović, Julian Wiederer, Markus Braun, Vasileios Belagiannis, Bin Yang
cs.AI
Resumen
El Transformer de Detección (DETR) y sus variantes muestran un rendimiento sólido en la detección de objetos, una tarea clave para los sistemas autónomos. Sin embargo, una limitación crítica de estos modelos es que sus puntuaciones de confianza solo reflejan la incertidumbre semántica, sin capturar la igualmente importante incertidumbre espacial. Esto resulta en una evaluación incompleta de la fiabilidad de la detección. Por otro lado, los Deep Ensembles pueden abordar este problema al proporcionar estimaciones de incertidumbre espacial de alta calidad. No obstante, su inmenso consumo de memoria los hace impracticables para aplicaciones del mundo real. Una alternativa más económica, el Monte Carlo (MC) Dropout, sufre de una alta latencia debido a la necesidad de realizar múltiples pasadas hacia adelante durante la inferencia para estimar la incertidumbre.
Para abordar estas limitaciones, presentamos GroupEnsemble, un método eficiente y efectivo para la estimación de incertidumbre en modelos tipo DETR. GroupEnsemble predice simultáneamente múltiples conjuntos de detección individuales alimentando al decodificador del transformer durante la inferencia con grupos adicionales y diversos de consultas de objetos. Cada grupo de consultas es transformado de forma aislada por el decodificador compartido y predice un conjunto de detección completo para la misma entrada. Se aplica una máscara de atención al decodificador para evitar interacciones entre consultas de diferentes grupos, garantizando que cada grupo detecte de forma independiente para lograr una estimación de incertidumbre fiable basada en ensembles. Al aprovechar el paralelismo inherente del decodificador, GroupEnsemble estima la incertidumbre de manera eficiente en una sola pasada hacia adelante, sin repetición secuencial. Validamos nuestro método en escenarios de conducción autónoma y escenarios cotidianos comunes utilizando los conjuntos de datos Cityscapes y COCO, respectivamente. Los resultados muestran que un enfoque híbrido que combina MC-Dropout y GroupEnsemble supera a los Deep Ensembles en varias métricas a una fracción del coste. El código está disponible en https://github.com/yutongy98/GroupEnsemble.
English
Detection Transformer (DETR) and its variants show strong performance on object detection, a key task for autonomous systems. However, a critical limitation of these models is that their confidence scores only reflect semantic uncertainty, failing to capture the equally important spatial uncertainty. This results in an incomplete assessment of the detection reliability. On the other hand, Deep Ensembles can tackle this by providing high-quality spatial uncertainty estimates. However, their immense memory consumption makes them impractical for real-world applications. A cheaper alternative, Monte Carlo (MC) Dropout, suffers from high latency due to the need of multiple forward passes during inference to estimate uncertainty.
To address these limitations, we introduce GroupEnsemble, an efficient and effective uncertainty estimation method for DETR-like models. GroupEnsemble simultaneously predicts multiple individual detection sets by feeding additional diverse groups of object queries to the transformer decoder during inference. Each query group is transformed by the shared decoder in isolation and predicts a complete detection set for the same input. An attention mask is applied to the decoder to prevent inter-group query interactions, ensuring each group detects independently to achieve reliable ensemble-based uncertainty estimation. By leveraging the decoder's inherent parallelism, GroupEnsemble efficiently estimates uncertainty in a single forward pass without sequential repetition. We validated our method under autonomous driving scenes and common daily scenes using the Cityscapes and COCO datasets, respectively. The results show that a hybrid approach combining MC-Dropout and GroupEnsemble outperforms Deep Ensembles on several metrics at a fraction of the cost. The code is available at https://github.com/yutongy98/GroupEnsemble.