GroupEnsemble: Efficiënte Onzekerheidschatting voor DETR-gebaseerde Objectdetectie
GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection
March 2, 2026
Auteurs: Yutong Yang, Katarina Popović, Julian Wiederer, Markus Braun, Vasileios Belagiannis, Bin Yang
cs.AI
Samenvatting
Detection Transformer (DETR) en zijn varianten vertonen sterke prestaties bij objectdetectie, een kerntaak voor autonome systemen. Een cruciale beperking van deze modellen is echter dat hun betrouwbaarheidsscores alleen de semantische onzekerheid weerspiegelen, zonder rekening te houden met de even belangrijke ruimtelijke onzekerheid. Dit resulteert in een onvolledige beoordeling van de detectiebetrouwbaarheid. Deep Ensembles kunnen dit probleem wel aanpakken door hoogwaardige schattingen van de ruimtelijke onzekerheid te leveren. Hun enorme geheugenverbruik maakt ze echter onpraktisch voor real-world toepassingen. Een goedkopere alternatief, Monte Carlo (MC) Dropout, heeft te lijden onder hoge latentie vanwege de behoefte aan meerdere forward passes tijdens de inferentie om de onzekerheid te schatten.
Om deze beperkingen aan te pakken, introduceren we GroupEnsemble, een efficiënte en effectieve methode voor onzekerheidsschatting voor DETR-achtige modellen. GroupEnsemble voorspelt gelijktijdig meerdere individuele detectiesets door aanvullende, diverse groepen objectqueries aan de transformer-decoder toe te voegen tijdens de inferentie. Elke querygroep wordt afzonderlijk getransformeerd door de gedeelde decoder en voorspelt een complete detectieset voor dezelfde invoer. Er wordt een aandachtmasker toegepast op de decoder om interacties tussen queries van verschillende groepen te voorkomen, waardoor elke groep onafhankelijk detecteert om betrouwbare, op ensembles gebaseerde onzekerheidsschatting te bereiken. Door gebruik te maken van de inherente parallelliteit van de decoder, schat GroupEnsemble de onzekerheid efficiënt in een enkele forward pass zonder sequentiële herhaling.
We hebben onze methode gevalideerd in autonome rijsituaties en alledaagse scènes met respectievelijk de Cityscapes- en COCO-datasets. De resultaten tonen aan dat een hybride aanpak, die MC-Dropout en GroupEnsemble combineert, Deep Ensembles op verschillende metrieken overtreft tegen een fractie van de kosten. De code is beschikbaar op https://github.com/yutongy98/GroupEnsemble.
English
Detection Transformer (DETR) and its variants show strong performance on object detection, a key task for autonomous systems. However, a critical limitation of these models is that their confidence scores only reflect semantic uncertainty, failing to capture the equally important spatial uncertainty. This results in an incomplete assessment of the detection reliability. On the other hand, Deep Ensembles can tackle this by providing high-quality spatial uncertainty estimates. However, their immense memory consumption makes them impractical for real-world applications. A cheaper alternative, Monte Carlo (MC) Dropout, suffers from high latency due to the need of multiple forward passes during inference to estimate uncertainty.
To address these limitations, we introduce GroupEnsemble, an efficient and effective uncertainty estimation method for DETR-like models. GroupEnsemble simultaneously predicts multiple individual detection sets by feeding additional diverse groups of object queries to the transformer decoder during inference. Each query group is transformed by the shared decoder in isolation and predicts a complete detection set for the same input. An attention mask is applied to the decoder to prevent inter-group query interactions, ensuring each group detects independently to achieve reliable ensemble-based uncertainty estimation. By leveraging the decoder's inherent parallelism, GroupEnsemble efficiently estimates uncertainty in a single forward pass without sequential repetition. We validated our method under autonomous driving scenes and common daily scenes using the Cityscapes and COCO datasets, respectively. The results show that a hybrid approach combining MC-Dropout and GroupEnsemble outperforms Deep Ensembles on several metrics at a fraction of the cost. The code is available at https://github.com/yutongy98/GroupEnsemble.