ChatPaper.aiChatPaper

GroupEnsemble: Эффективная оценка неопределенности для объектного детектирования на основе DETR

GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection

March 2, 2026
Авторы: Yutong Yang, Katarina Popović, Julian Wiederer, Markus Braun, Vasileios Belagiannis, Bin Yang
cs.AI

Аннотация

Детекторный транссформер (DETR) и его варианты демонстрируют высокую производительность в задаче обнаружения объектов, которая является ключевой для автономных систем. Однако критическое ограничение этих моделей заключается в том, что их оценки уверенности отражают только семантическую неопределенность, не учитывая столь же важную пространственную неопределенность. Это приводит к неполной оценке надежности обнаружения. С другой стороны, Глубокие Ансамбли (Deep Ensembles) позволяют решить эту проблему, предоставляя высококачественные оценки пространственной неопределенности. Однако их огромное потребление памяти делает их непрактичными для реальных применений. Более дешевая альтернатива, Монте-Карло Дропаут (MC-Dropout), страдает от высокой задержки из-за необходимости множественных прямых проходов во время вывода для оценки неопределенности. Чтобы устранить эти ограничения, мы представляем GroupEnsemble — эффективный метод оценки неопределенности для моделей типа DETR. GroupEnsemble одновременно предсказывает несколько индивидуальных наборов обнаружений, подавая дополнительные разнородные группы объектных запросов в декодер трансформера во время вывода. Каждая группа запросов преобразуется общим декодером изолированно и предсказывает полный набор обнаружений для одного и того же входного данных. К декодеру применяется маска внимания, чтобы предотвратить взаимодействие запросов между группами, гарантируя, что каждая группа обнаруживает объекты независимо для достижения надежной оценки неопределенности на основе ансамбля. Благодаря использованию присущего декодеру параллелизма, GroupEnsemble эффективно оценивает неопределенность за один прямой проход без последовательных повторений. Мы проверили наш метод в сценариях автономного вождения и повседневных сценах, используя наборы данных Cityscapes и COCO соответственно. Результаты показывают, что гибридный подход, сочетающий MC-Dropout и GroupEnsemble, превосходит Глубокие Ансамбли по нескольким метрикам при существенно меньшей стоимости. Код доступен по адресу https://github.com/yutongy98/GroupEnsemble.
English
Detection Transformer (DETR) and its variants show strong performance on object detection, a key task for autonomous systems. However, a critical limitation of these models is that their confidence scores only reflect semantic uncertainty, failing to capture the equally important spatial uncertainty. This results in an incomplete assessment of the detection reliability. On the other hand, Deep Ensembles can tackle this by providing high-quality spatial uncertainty estimates. However, their immense memory consumption makes them impractical for real-world applications. A cheaper alternative, Monte Carlo (MC) Dropout, suffers from high latency due to the need of multiple forward passes during inference to estimate uncertainty. To address these limitations, we introduce GroupEnsemble, an efficient and effective uncertainty estimation method for DETR-like models. GroupEnsemble simultaneously predicts multiple individual detection sets by feeding additional diverse groups of object queries to the transformer decoder during inference. Each query group is transformed by the shared decoder in isolation and predicts a complete detection set for the same input. An attention mask is applied to the decoder to prevent inter-group query interactions, ensuring each group detects independently to achieve reliable ensemble-based uncertainty estimation. By leveraging the decoder's inherent parallelism, GroupEnsemble efficiently estimates uncertainty in a single forward pass without sequential repetition. We validated our method under autonomous driving scenes and common daily scenes using the Cityscapes and COCO datasets, respectively. The results show that a hybrid approach combining MC-Dropout and GroupEnsemble outperforms Deep Ensembles on several metrics at a fraction of the cost. The code is available at https://github.com/yutongy98/GroupEnsemble.
PDF12March 6, 2026