Réexamen du pré-entraînement de DETR pour la détection d'objets

papers.abstract

Motivés par le fait que les approches basées sur DETR ont établi de nouveaux records sur les benchmarks de détection et de segmentation COCO, de nombreux travaux récents montrent un intérêt croissant pour l'amélioration des approches DETR via un pré-entraînement auto-supervisé du Transformer tout en gardant le backbone figé. Certaines études ont déjà rapporté des améliorations significatives en termes de précision. Dans cet article, nous examinons de plus près leur méthodologie expérimentale et vérifions si leurs approches restent efficaces sur les méthodes les plus récentes de pointe, telles que H-Deformable-DETR. Nous menons des expériences approfondies sur les tâches de détection d'objets COCO pour étudier l'influence du choix des jeux de données de pré-entraînement, des schémas de génération des cibles de localisation et de classification. Malheureusement, nous constatons que l'approche auto-supervisée représentative précédente, comme DETReg, ne parvient pas à améliorer les performances des approches DETR fortes dans des régimes de données complètes. Nous analysons ensuite les raisons et découvrons que la simple combinaison d'un prédicteur de boîtes plus précis et du benchmark Objects365 peut significativement améliorer les résultats dans les expériences suivantes. Nous démontrons l'efficacité de notre approche en atteignant des résultats solides en détection d'objets avec un AP=59,3% sur l'ensemble de validation COCO, surpassant H-Deformable-DETR + Swin-L de +1,4%. Enfin, nous générons une série de jeux de données synthétiques de pré-entraînement en combinant les modèles récents de génération de légendes image-texte (LLaVA) et de génération d'images à partir de texte (SDXL). Notamment, le pré-entraînement sur ces jeux de données synthétiques conduit à des améliorations notables des performances en détection d'objets. À l'avenir, nous anticipons des avantages substantiels grâce à l'expansion future du jeu de données synthétique de pré-entraînement.

English

Motivated by that DETR-based approaches have established new records on COCO detection and segmentation benchmarks, many recent endeavors show increasing interest in how to further improve DETR-based approaches by pre-training the Transformer in a self-supervised manner while keeping the backbone frozen. Some studies already claimed significant improvements in accuracy. In this paper, we take a closer look at their experimental methodology and check if their approaches are still effective on the very recent state-of-the-art such as H-Deformable-DETR. We conduct thorough experiments on COCO object detection tasks to study the influence of the choice of pre-training datasets, localization, and classification target generation schemes. Unfortunately, we find the previous representative self-supervised approach such as DETReg, fails to boost the performance of the strong DETR-based approaches on full data regimes. We further analyze the reasons and find that simply combining a more accurate box predictor and Objects365 benchmark can significantly improve the results in follow-up experiments. We demonstrate the effectiveness of our approach by achieving strong object detection results of AP=59.3% on COCO val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%. Last, we generate a series of synthetic pre-training datasets by combining the very recent image-to-text captioning models (LLaVA) and text-to-image generative models (SDXL). Notably, pre-training on these synthetic datasets leads to notable improvements in object detection performance. Looking ahead, we anticipate substantial advantages through the future expansion of the synthetic pre-training dataset.

Réexamen du pré-entraînement de DETR pour la détection d'objets

Revisiting DETR Pre-training for Object Detection

papers.abstract

Support