GroupEnsemble: Effiziente Unsicherheitsschätzung für DETR-basierte Objekterkennung
GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection
March 2, 2026
Autoren: Yutong Yang, Katarina Popović, Julian Wiederer, Markus Braun, Vasileios Belagiannis, Bin Yang
cs.AI
Zusammenfassung
Der Detection Transformer (DETR) und seine Varianten zeigen eine hohe Leistungsfähigkeit bei der Objekterkennung, einer Schlüsselaufgabe für autonome Systeme. Eine kritische Einschränkung dieser Modelle ist jedoch, dass ihre Konfidenzscores nur die semantische Unsicherheit widerspiegeln und die ebenso wichtige räumliche Unsicherheit nicht erfassen. Dies führt zu einer unvollständigen Bewertung der Erkennungszuverlässigkeit. Deep Ensembles können dieses Problem hingegen lösen, indem sie hochwertige Schätzungen der räumlichen Unsicherheit liefern. Deren immenser Speicherverbrauch macht sie jedoch für praktische Anwendungen unbrauchbar. Eine kostengünstigere Alternative, Monte Carlo (MC) Dropout, leidet unter hoher Latenz, da während des Inferenzvorgangs mehrere Vorwärtsdurchläufe zur Unsicherheitsschätzung erforderlich sind.
Um diese Einschränkungen zu adressieren, stellen wir GroupEnsemble vor, eine effiziente und effektive Methode zur Unsicherheitsschätzung für DETR-ähnliche Modelle. GroupEnsemble sagt gleichzeitig mehrere individuelle Erkennungssätze vorher, indem während der Inferenz zusätzliche, diverse Gruppen von Objektabfragen an den Transformer-Decoder übergeben werden. Jede Abfragegruppe wird isoliert durch den gemeinsamen Decoder transformiert und sagt einen vollständigen Erkennungssatz für dieselbe Eingabe vorher. Eine Attention-Maske wird auf den Decoder angewandt, um Interaktionen zwischen Abfragen verschiedener Gruppen zu verhindern. Dies stellt sicher, dass jede Gruppe unabhängig erkennt, um eine zuverlässige, ensemble-basierte Unsicherheitsschätzung zu erreichen. Durch die Nutzung der inhärenten Parallelität des Decoders schätzt GroupEnsemble die Unsicherheit effizient in einem einzigen Vorwärtsdurchlauf ohne sequentielle Wiederholung.
Wir validierten unsere Methode in Szenen des autonomen Fahrens und alltäglichen Szenen unter Verwendung der Cityscapes- bzw. COCO-Datensätze. Die Ergebnisse zeigen, dass ein hybrider Ansatz, der MC-Dropout und GroupEnsemble kombiniert, Deep Ensembles bei mehreren Metriken übertrifft – und das zu einem Bruchteil der Kosten. Der Code ist verfügbar unter https://github.com/yutongy98/GroupEnsemble.
English
Detection Transformer (DETR) and its variants show strong performance on object detection, a key task for autonomous systems. However, a critical limitation of these models is that their confidence scores only reflect semantic uncertainty, failing to capture the equally important spatial uncertainty. This results in an incomplete assessment of the detection reliability. On the other hand, Deep Ensembles can tackle this by providing high-quality spatial uncertainty estimates. However, their immense memory consumption makes them impractical for real-world applications. A cheaper alternative, Monte Carlo (MC) Dropout, suffers from high latency due to the need of multiple forward passes during inference to estimate uncertainty.
To address these limitations, we introduce GroupEnsemble, an efficient and effective uncertainty estimation method for DETR-like models. GroupEnsemble simultaneously predicts multiple individual detection sets by feeding additional diverse groups of object queries to the transformer decoder during inference. Each query group is transformed by the shared decoder in isolation and predicts a complete detection set for the same input. An attention mask is applied to the decoder to prevent inter-group query interactions, ensuring each group detects independently to achieve reliable ensemble-based uncertainty estimation. By leveraging the decoder's inherent parallelism, GroupEnsemble efficiently estimates uncertainty in a single forward pass without sequential repetition. We validated our method under autonomous driving scenes and common daily scenes using the Cityscapes and COCO datasets, respectively. The results show that a hybrid approach combining MC-Dropout and GroupEnsemble outperforms Deep Ensembles on several metrics at a fraction of the cost. The code is available at https://github.com/yutongy98/GroupEnsemble.