GroupEnsemble : Estimation efficace de l'incertitude pour la détection d'objets basée sur DETR
GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection
March 2, 2026
Auteurs: Yutong Yang, Katarina Popović, Julian Wiederer, Markus Braun, Vasileios Belagiannis, Bin Yang
cs.AI
Résumé
Le Detection Transformer (DETR) et ses variantes démontrent de fortes performances sur la détection d'objets, une tâche clé pour les systèmes autonomes. Cependant, une limitation critique de ces modèles est que leurs scores de confiance ne reflètent que l'incertitude sémantique, sans capturer l'incertitude spatiale tout aussi importante. Il en résulte une évaluation incomplète de la fiabilité de la détection. D'un autre côté, les Deep Ensembles peuvent résoudre ce problème en fournissant des estimations de haute qualité de l'incertitude spatiale. Cependant, leur consommation mémoire immense les rend impraticables pour les applications réelles. Une alternative moins coûteuse, le Monte Carlo (MC) Dropout, souffre d'une latence élevée en raison du besoin de multiples passes avant durant l'inférence pour estimer l'incertitude.
Pour répondre à ces limitations, nous présentons GroupEnsemble, une méthode d'estimation d'incertitude efficace et efficiente pour les modèles de type DETR. GroupEnsemble prédit simultanément plusieurs ensembles de détections individuels en fournissant, lors de l'inférence, des groupes supplémentaires et diversifiés de requêtes d'objets au décodeur du transformer. Chaque groupe de requêtes est transformé de manière isolée par le décodeur partagé et prédit un ensemble complet de détections pour la même entrée. Un masque d'attention est appliqué au décodeur pour empêcher les interactions entre les requêtes de différents groupes, garantissant que chaque groupe détecte indépendamment pour obtenir une estimation d'incertitude fiable basée sur l'assemblage. En tirant parti du parallélisme inhérent au décodeur, GroupEnsemble estime efficacement l'incertitude en une seule passe avant, sans répétition séquentielle.
Nous avons validé notre méthode dans des scènes de conduite autonome et des scènes quotidiennes courantes en utilisant respectivement les jeux de données Cityscapes et COCO. Les résultats montrent qu'une approche hybride combinant MC-Dropout et GroupEnsemble surpasse les Deep Ensembles sur plusieurs métriques pour une fraction du coût. Le code est disponible à l'adresse https://github.com/yutongy98/GroupEnsemble.
English
Detection Transformer (DETR) and its variants show strong performance on object detection, a key task for autonomous systems. However, a critical limitation of these models is that their confidence scores only reflect semantic uncertainty, failing to capture the equally important spatial uncertainty. This results in an incomplete assessment of the detection reliability. On the other hand, Deep Ensembles can tackle this by providing high-quality spatial uncertainty estimates. However, their immense memory consumption makes them impractical for real-world applications. A cheaper alternative, Monte Carlo (MC) Dropout, suffers from high latency due to the need of multiple forward passes during inference to estimate uncertainty.
To address these limitations, we introduce GroupEnsemble, an efficient and effective uncertainty estimation method for DETR-like models. GroupEnsemble simultaneously predicts multiple individual detection sets by feeding additional diverse groups of object queries to the transformer decoder during inference. Each query group is transformed by the shared decoder in isolation and predicts a complete detection set for the same input. An attention mask is applied to the decoder to prevent inter-group query interactions, ensuring each group detects independently to achieve reliable ensemble-based uncertainty estimation. By leveraging the decoder's inherent parallelism, GroupEnsemble efficiently estimates uncertainty in a single forward pass without sequential repetition. We validated our method under autonomous driving scenes and common daily scenes using the Cityscapes and COCO datasets, respectively. The results show that a hybrid approach combining MC-Dropout and GroupEnsemble outperforms Deep Ensembles on several metrics at a fraction of the cost. The code is available at https://github.com/yutongy98/GroupEnsemble.