GroupEnsemble: Estimativa Eficiente de Incerteza para Detecção de Objetos Baseada em DETR
GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection
March 2, 2026
Autores: Yutong Yang, Katarina Popović, Julian Wiederer, Markus Braun, Vasileios Belagiannis, Bin Yang
cs.AI
Resumo
O Detection Transformer (DETR) e suas variantes apresentam um desempenho robusto na detecção de objetos, uma tarefa fundamental para sistemas autónomos. No entanto, uma limitação crítica desses modelos é que suas pontuações de confiança refletem apenas a incerteza semântica, falhando em capturar a igualmente importante incerteza espacial. Isso resulta numa avaliação incompleta da confiabilidade da deteção. Por outro lado, os Deep Ensembles podem lidar com isso, fornecendo estimativas de incerteza espacial de alta qualidade. Contudo, o seu consumo massivo de memória torna-os impraticáveis para aplicações do mundo real. Uma alternativa mais económica, o Monte Carlo (MC) Dropout, sofre de alta latência devido à necessidade de múltiplas passagens *forward* durante a inferência para estimar a incerteza.
Para superar essas limitações, apresentamos o GroupEnsemble, um método de estimativa de incerteza eficiente e eficaz para modelos do tipo DETR. O GroupEnsemble prevê simultaneamente múltiplos conjuntos de deteção individuais, fornecendo grupos adicionais e diversos de *queries* de objetos ao descodificador do *transformer* durante a inferência. Cada grupo de *queries* é transformado isoladamente pelo descodificador partilhado e prevê um conjunto completo de deteções para a mesma entrada. Uma máscara de atenção é aplicada ao descodificador para impedir interações de *queries* entre grupos, garantindo que cada grupo deteta de forma independente para alcançar uma estimativa de incerteza confiável baseada em *ensemble*. Ao aproveitar o paralelismo inerente do descodificador, o GroupEnsemble estima eficientemente a incerteza numa única passagem *forward*, sem repetição sequencial. Validámos o nosso método em cenários de condução autónoma e em cenas quotidianas comuns, utilizando os conjuntos de dados Cityscapes e COCO, respetivamente. Os resultados demonstram que uma abordagem híbrida, combinando MC-Dropout e GroupEnsemble, supera os Deep Ensembles em várias métricas a uma fração do custo. O código está disponível em https://github.com/yutongy98/GroupEnsemble.
English
Detection Transformer (DETR) and its variants show strong performance on object detection, a key task for autonomous systems. However, a critical limitation of these models is that their confidence scores only reflect semantic uncertainty, failing to capture the equally important spatial uncertainty. This results in an incomplete assessment of the detection reliability. On the other hand, Deep Ensembles can tackle this by providing high-quality spatial uncertainty estimates. However, their immense memory consumption makes them impractical for real-world applications. A cheaper alternative, Monte Carlo (MC) Dropout, suffers from high latency due to the need of multiple forward passes during inference to estimate uncertainty.
To address these limitations, we introduce GroupEnsemble, an efficient and effective uncertainty estimation method for DETR-like models. GroupEnsemble simultaneously predicts multiple individual detection sets by feeding additional diverse groups of object queries to the transformer decoder during inference. Each query group is transformed by the shared decoder in isolation and predicts a complete detection set for the same input. An attention mask is applied to the decoder to prevent inter-group query interactions, ensuring each group detects independently to achieve reliable ensemble-based uncertainty estimation. By leveraging the decoder's inherent parallelism, GroupEnsemble efficiently estimates uncertainty in a single forward pass without sequential repetition. We validated our method under autonomous driving scenes and common daily scenes using the Cityscapes and COCO datasets, respectively. The results show that a hybrid approach combining MC-Dropout and GroupEnsemble outperforms Deep Ensembles on several metrics at a fraction of the cost. The code is available at https://github.com/yutongy98/GroupEnsemble.