ChatPaper.aiChatPaper

Neubewertung der Vortrainierung von DETR für die Objekterkennung

Revisiting DETR Pre-training for Object Detection

August 2, 2023
Autoren: Yan Ma, Weicong Liang, Yiduo Hao, Bohan Chen, Xiangyu Yue, Chao Zhang, Yuhui Yuan
cs.AI

Zusammenfassung

Angeregt durch die Tatsache, dass DETR-basierte Ansätze neue Rekorde auf den COCO-Erkennungs- und Segmentierungs-Benchmarks aufgestellt haben, zeigen viele aktuelle Bestrebungen zunehmendes Interesse daran, wie DETR-basierte Ansätze weiter verbessert werden können, indem der Transformer auf selbstüberwachte Weise vortrainiert wird, während das Backbone eingefroren bleibt. Einige Studien haben bereits signifikante Verbesserungen in der Genauigkeit behauptet. In diesem Papier werfen wir einen genaueren Blick auf ihre experimentelle Methodik und überprüfen, ob ihre Ansätze auf dem neuesten Stand der Technik, wie z. B. H-Deformable-DETR, noch effektiv sind. Wir führen umfangreiche Experimente zu COCO-Objekterkennungsaufgaben durch, um den Einfluss der Wahl der Vortrainingsdatensätze, der Lokalisierung und der Klassifizierungszielgenerierungsschemata zu untersuchen. Leider stellen wir fest, dass der bisherige repräsentative selbstüberwachte Ansatz wie DETReg die Leistung der starken DETR-basierten Ansätze im vollen Datenregime nicht steigern kann. Wir analysieren weiter die Gründe und finden heraus, dass die einfache Kombination eines genaueren Box-Vorhersagemodells und des Objects365-Benchmarks die Ergebnisse in nachfolgenden Experimenten signifikant verbessern kann. Wir demonstrieren die Wirksamkeit unseres Ansatzes, indem wir starke Objekterkennungsergebnisse von AP=59,3 % auf dem COCO-Val-Set erzielen, was H-Deformable-DETR + Swin-L um +1,4 % übertrifft. Schließlich generieren wir eine Reihe von synthetischen Vortrainingsdatensätzen, indem wir die neuesten Bild-zu-Text-Beschreibungsmodelle (LLaVA) und Text-zu-Bild-Generierungsmodelle (SDXL) kombinieren. Bemerkenswerterweise führt das Vortraining auf diesen synthetischen Datensätzen zu bemerkenswerten Verbesserungen in der Objekterkennungsleistung. In Zukunft erwarten wir erhebliche Vorteile durch die zukünftige Erweiterung des synthetischen Vortrainingsdatensatzes.
English
Motivated by that DETR-based approaches have established new records on COCO detection and segmentation benchmarks, many recent endeavors show increasing interest in how to further improve DETR-based approaches by pre-training the Transformer in a self-supervised manner while keeping the backbone frozen. Some studies already claimed significant improvements in accuracy. In this paper, we take a closer look at their experimental methodology and check if their approaches are still effective on the very recent state-of-the-art such as H-Deformable-DETR. We conduct thorough experiments on COCO object detection tasks to study the influence of the choice of pre-training datasets, localization, and classification target generation schemes. Unfortunately, we find the previous representative self-supervised approach such as DETReg, fails to boost the performance of the strong DETR-based approaches on full data regimes. We further analyze the reasons and find that simply combining a more accurate box predictor and Objects365 benchmark can significantly improve the results in follow-up experiments. We demonstrate the effectiveness of our approach by achieving strong object detection results of AP=59.3% on COCO val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%. Last, we generate a series of synthetic pre-training datasets by combining the very recent image-to-text captioning models (LLaVA) and text-to-image generative models (SDXL). Notably, pre-training on these synthetic datasets leads to notable improvements in object detection performance. Looking ahead, we anticipate substantial advantages through the future expansion of the synthetic pre-training dataset.
PDF90December 15, 2024