Réexamen du pré-entraînement de DETR pour la détection d'objets
Revisiting DETR Pre-training for Object Detection
August 2, 2023
Auteurs: Yan Ma, Weicong Liang, Yiduo Hao, Bohan Chen, Xiangyu Yue, Chao Zhang, Yuhui Yuan
cs.AI
Résumé
Motivés par le fait que les approches basées sur DETR ont établi de nouveaux records sur les benchmarks de détection et de segmentation COCO, de nombreux travaux récents montrent un intérêt croissant pour l'amélioration des approches DETR via un pré-entraînement auto-supervisé du Transformer tout en gardant le backbone figé. Certaines études ont déjà rapporté des améliorations significatives en termes de précision. Dans cet article, nous examinons de plus près leur méthodologie expérimentale et vérifions si leurs approches restent efficaces sur les méthodes les plus récentes de pointe, telles que H-Deformable-DETR. Nous menons des expériences approfondies sur les tâches de détection d'objets COCO pour étudier l'influence du choix des jeux de données de pré-entraînement, des schémas de génération des cibles de localisation et de classification. Malheureusement, nous constatons que l'approche auto-supervisée représentative précédente, comme DETReg, ne parvient pas à améliorer les performances des approches DETR fortes dans des régimes de données complètes. Nous analysons ensuite les raisons et découvrons que la simple combinaison d'un prédicteur de boîtes plus précis et du benchmark Objects365 peut significativement améliorer les résultats dans les expériences suivantes. Nous démontrons l'efficacité de notre approche en atteignant des résultats solides en détection d'objets avec un AP=59,3% sur l'ensemble de validation COCO, surpassant H-Deformable-DETR + Swin-L de +1,4%. Enfin, nous générons une série de jeux de données synthétiques de pré-entraînement en combinant les modèles récents de génération de légendes image-texte (LLaVA) et de génération d'images à partir de texte (SDXL). Notamment, le pré-entraînement sur ces jeux de données synthétiques conduit à des améliorations notables des performances en détection d'objets. À l'avenir, nous anticipons des avantages substantiels grâce à l'expansion future du jeu de données synthétique de pré-entraînement.
English
Motivated by that DETR-based approaches have established new records on COCO
detection and segmentation benchmarks, many recent endeavors show increasing
interest in how to further improve DETR-based approaches by pre-training the
Transformer in a self-supervised manner while keeping the backbone frozen. Some
studies already claimed significant improvements in accuracy. In this paper, we
take a closer look at their experimental methodology and check if their
approaches are still effective on the very recent state-of-the-art such as
H-Deformable-DETR. We conduct thorough experiments on COCO object
detection tasks to study the influence of the choice of pre-training datasets,
localization, and classification target generation schemes. Unfortunately, we
find the previous representative self-supervised approach such as DETReg, fails
to boost the performance of the strong DETR-based approaches on full data
regimes. We further analyze the reasons and find that simply combining a more
accurate box predictor and Objects365 benchmark can significantly improve the
results in follow-up experiments. We demonstrate the effectiveness of our
approach by achieving strong object detection results of AP=59.3% on COCO
val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%.
Last, we generate a series of synthetic pre-training datasets by combining the
very recent image-to-text captioning models (LLaVA) and text-to-image
generative models (SDXL). Notably, pre-training on these synthetic datasets
leads to notable improvements in object detection performance. Looking ahead,
we anticipate substantial advantages through the future expansion of the
synthetic pre-training dataset.