Opnieuw bekijken van DETR-pre-training voor objectdetectie

Samenvatting

Gemotiveerd door het feit dat DETR-gebaseerde benaderingen nieuwe records hebben gevestigd op de COCO-detectie- en segmentatiebenchmarks, tonen veel recente inspanningen een groeiende interesse in hoe DETR-gebaseerde benaderingen verder kunnen worden verbeterd door de Transformer op een zelfgesuperviseerde manier voor te trainen terwijl het backbone-netwerk bevroren blijft. Sommige studies hebben al aanzienlijke verbeteringen in nauwkeurigheid geclaimd. In dit artikel nemen we hun experimentele methodologie onder de loep en controleren we of hun benaderingen nog steeds effectief zijn op de meest recente state-of-the-art, zoals H-Deformable-DETR. We voeren grondige experimenten uit op COCO-objectdetectietaken om de invloed te bestuderen van de keuze van voor-trainingsdatasets, lokalisatie- en classificatiedoelgeneratieschema's. Helaas stellen we vast dat de vorige representatieve zelfgesuperviseerde benadering, zoals DETReg, er niet in slaagt de prestaties van de sterke DETR-gebaseerde benaderingen te verbeteren in volledige dataregimes. We analyseren verder de redenen en ontdekken dat het eenvoudig combineren van een nauwkeurigere bbox-voorspeller en de Objects365-benchmark de resultaten in vervolgexperimenten aanzienlijk kan verbeteren. We demonstreren de effectiviteit van onze benadering door sterke objectdetectieresultaten te behalen van AP=59,3% op de COCO-valdataset, wat H-Deformable-DETR + Swin-L met +1,4% overtreft. Ten slotte genereren we een reeks synthetische voor-trainingsdatasets door de meest recente beeld-naar-tekst-beschrijvingsmodellen (LLaVA) en tekst-naar-beeld-generatieve modellen (SDXL) te combineren. Opmerkelijk is dat voor-trainen op deze synthetische datasets leidt tot aanzienlijke verbeteringen in de objectdetectieprestaties. Vooruitkijkend verwachten we aanzienlijke voordelen door de toekomstige uitbreiding van het synthetische voor-trainingsdataset.

English

Motivated by that DETR-based approaches have established new records on COCO detection and segmentation benchmarks, many recent endeavors show increasing interest in how to further improve DETR-based approaches by pre-training the Transformer in a self-supervised manner while keeping the backbone frozen. Some studies already claimed significant improvements in accuracy. In this paper, we take a closer look at their experimental methodology and check if their approaches are still effective on the very recent state-of-the-art such as H-Deformable-DETR. We conduct thorough experiments on COCO object detection tasks to study the influence of the choice of pre-training datasets, localization, and classification target generation schemes. Unfortunately, we find the previous representative self-supervised approach such as DETReg, fails to boost the performance of the strong DETR-based approaches on full data regimes. We further analyze the reasons and find that simply combining a more accurate box predictor and Objects365 benchmark can significantly improve the results in follow-up experiments. We demonstrate the effectiveness of our approach by achieving strong object detection results of AP=59.3% on COCO val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%. Last, we generate a series of synthetic pre-training datasets by combining the very recent image-to-text captioning models (LLaVA) and text-to-image generative models (SDXL). Notably, pre-training on these synthetic datasets leads to notable improvements in object detection performance. Looking ahead, we anticipate substantial advantages through the future expansion of the synthetic pre-training dataset.

Opnieuw bekijken van DETR-pre-training voor objectdetectie

Revisiting DETR Pre-training for Object Detection

Samenvatting

Support