ChatPaper.aiChatPaper

Rivalutazione del Pre-addestramento DETR per il Rilevamento di Oggetti

Revisiting DETR Pre-training for Object Detection

August 2, 2023
Autori: Yan Ma, Weicong Liang, Yiduo Hao, Bohan Chen, Xiangyu Yue, Chao Zhang, Yuhui Yuan
cs.AI

Abstract

Spinti dal fatto che gli approcci basati su DETR hanno stabilito nuovi record sui benchmark di rilevamento e segmentazione COCO, molti recenti sforzi mostrano un crescente interesse su come migliorare ulteriormente gli approcci basati su DETR pre-addestrando il Transformer in modo auto-supervisionato mantenendo congelato il backbone. Alcuni studi hanno già riportato miglioramenti significativi in termini di accuratezza. In questo articolo, esaminiamo più da vicino la loro metodologia sperimentale e verifichiamo se i loro approcci sono ancora efficaci sugli ultimi modelli all'avanguardia come H-Deformable-DETR. Condurremo esperimenti approfonditi sui task di rilevamento oggetti COCO per studiare l'influenza della scelta dei dataset di pre-addestramento, della localizzazione e degli schemi di generazione dei target di classificazione. Sfortunatamente, scopriamo che il precedente approccio rappresentativo di auto-supervisione come DETReg non riesce a migliorare le prestazioni dei forti approcci basati su DETR in regimi di dati completi. Analizziamo ulteriormente le ragioni e scopriamo che semplicemente combinando un predittore di bounding box più accurato e il benchmark Objects365 si possono ottenere miglioramenti significativi nei successivi esperimenti. Dimostriamo l'efficacia del nostro approccio ottenendo forti risultati di rilevamento oggetti con AP=59,3% sul set di validazione COCO, superando H-Deformable-DETR + Swin-L di +1,4%. Infine, generiamo una serie di dataset sintetici di pre-addestramento combinando i recenti modelli di captioning da immagine a testo (LLaVA) e i modelli generativi da testo a immagine (SDXL). È degno di nota che il pre-addestramento su questi dataset sintetici porti a miglioramenti significativi nelle prestazioni di rilevamento oggetti. Guardando al futuro, prevediamo vantaggi sostanziali attraverso l'espansione futura del dataset sintetico di pre-addestramento.
English
Motivated by that DETR-based approaches have established new records on COCO detection and segmentation benchmarks, many recent endeavors show increasing interest in how to further improve DETR-based approaches by pre-training the Transformer in a self-supervised manner while keeping the backbone frozen. Some studies already claimed significant improvements in accuracy. In this paper, we take a closer look at their experimental methodology and check if their approaches are still effective on the very recent state-of-the-art such as H-Deformable-DETR. We conduct thorough experiments on COCO object detection tasks to study the influence of the choice of pre-training datasets, localization, and classification target generation schemes. Unfortunately, we find the previous representative self-supervised approach such as DETReg, fails to boost the performance of the strong DETR-based approaches on full data regimes. We further analyze the reasons and find that simply combining a more accurate box predictor and Objects365 benchmark can significantly improve the results in follow-up experiments. We demonstrate the effectiveness of our approach by achieving strong object detection results of AP=59.3% on COCO val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%. Last, we generate a series of synthetic pre-training datasets by combining the very recent image-to-text captioning models (LLaVA) and text-to-image generative models (SDXL). Notably, pre-training on these synthetic datasets leads to notable improvements in object detection performance. Looking ahead, we anticipate substantial advantages through the future expansion of the synthetic pre-training dataset.
PDF90December 15, 2024