Opnieuw bekijken van DETR-pre-training voor objectdetectie
Revisiting DETR Pre-training for Object Detection
August 2, 2023
Auteurs: Yan Ma, Weicong Liang, Yiduo Hao, Bohan Chen, Xiangyu Yue, Chao Zhang, Yuhui Yuan
cs.AI
Samenvatting
Gemotiveerd door het feit dat DETR-gebaseerde benaderingen nieuwe records hebben gevestigd op de COCO-detectie- en segmentatiebenchmarks, tonen veel recente inspanningen een groeiende interesse in hoe DETR-gebaseerde benaderingen verder kunnen worden verbeterd door de Transformer op een zelfgesuperviseerde manier voor te trainen terwijl het backbone-netwerk bevroren blijft. Sommige studies hebben al aanzienlijke verbeteringen in nauwkeurigheid geclaimd. In dit artikel nemen we hun experimentele methodologie onder de loep en controleren we of hun benaderingen nog steeds effectief zijn op de meest recente state-of-the-art, zoals H-Deformable-DETR. We voeren grondige experimenten uit op COCO-objectdetectietaken om de invloed te bestuderen van de keuze van voor-trainingsdatasets, lokalisatie- en classificatiedoelgeneratieschema's. Helaas stellen we vast dat de vorige representatieve zelfgesuperviseerde benadering, zoals DETReg, er niet in slaagt de prestaties van de sterke DETR-gebaseerde benaderingen te verbeteren in volledige dataregimes. We analyseren verder de redenen en ontdekken dat het eenvoudig combineren van een nauwkeurigere bbox-voorspeller en de Objects365-benchmark de resultaten in vervolgexperimenten aanzienlijk kan verbeteren. We demonstreren de effectiviteit van onze benadering door sterke objectdetectieresultaten te behalen van AP=59,3% op de COCO-valdataset, wat H-Deformable-DETR + Swin-L met +1,4% overtreft. Ten slotte genereren we een reeks synthetische voor-trainingsdatasets door de meest recente beeld-naar-tekst-beschrijvingsmodellen (LLaVA) en tekst-naar-beeld-generatieve modellen (SDXL) te combineren. Opmerkelijk is dat voor-trainen op deze synthetische datasets leidt tot aanzienlijke verbeteringen in de objectdetectieprestaties. Vooruitkijkend verwachten we aanzienlijke voordelen door de toekomstige uitbreiding van het synthetische voor-trainingsdataset.
English
Motivated by that DETR-based approaches have established new records on COCO
detection and segmentation benchmarks, many recent endeavors show increasing
interest in how to further improve DETR-based approaches by pre-training the
Transformer in a self-supervised manner while keeping the backbone frozen. Some
studies already claimed significant improvements in accuracy. In this paper, we
take a closer look at their experimental methodology and check if their
approaches are still effective on the very recent state-of-the-art such as
H-Deformable-DETR. We conduct thorough experiments on COCO object
detection tasks to study the influence of the choice of pre-training datasets,
localization, and classification target generation schemes. Unfortunately, we
find the previous representative self-supervised approach such as DETReg, fails
to boost the performance of the strong DETR-based approaches on full data
regimes. We further analyze the reasons and find that simply combining a more
accurate box predictor and Objects365 benchmark can significantly improve the
results in follow-up experiments. We demonstrate the effectiveness of our
approach by achieving strong object detection results of AP=59.3% on COCO
val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%.
Last, we generate a series of synthetic pre-training datasets by combining the
very recent image-to-text captioning models (LLaVA) and text-to-image
generative models (SDXL). Notably, pre-training on these synthetic datasets
leads to notable improvements in object detection performance. Looking ahead,
we anticipate substantial advantages through the future expansion of the
synthetic pre-training dataset.