Rivalutazione del Pre-addestramento DETR per il Rilevamento di Oggetti

Abstract

Spinti dal fatto che gli approcci basati su DETR hanno stabilito nuovi record sui benchmark di rilevamento e segmentazione COCO, molti recenti sforzi mostrano un crescente interesse su come migliorare ulteriormente gli approcci basati su DETR pre-addestrando il Transformer in modo auto-supervisionato mantenendo congelato il backbone. Alcuni studi hanno già riportato miglioramenti significativi in termini di accuratezza. In questo articolo, esaminiamo più da vicino la loro metodologia sperimentale e verifichiamo se i loro approcci sono ancora efficaci sugli ultimi modelli all'avanguardia come H-Deformable-DETR. Condurremo esperimenti approfonditi sui task di rilevamento oggetti COCO per studiare l'influenza della scelta dei dataset di pre-addestramento, della localizzazione e degli schemi di generazione dei target di classificazione. Sfortunatamente, scopriamo che il precedente approccio rappresentativo di auto-supervisione come DETReg non riesce a migliorare le prestazioni dei forti approcci basati su DETR in regimi di dati completi. Analizziamo ulteriormente le ragioni e scopriamo che semplicemente combinando un predittore di bounding box più accurato e il benchmark Objects365 si possono ottenere miglioramenti significativi nei successivi esperimenti. Dimostriamo l'efficacia del nostro approccio ottenendo forti risultati di rilevamento oggetti con AP=59,3% sul set di validazione COCO, superando H-Deformable-DETR + Swin-L di +1,4%. Infine, generiamo una serie di dataset sintetici di pre-addestramento combinando i recenti modelli di captioning da immagine a testo (LLaVA) e i modelli generativi da testo a immagine (SDXL). È degno di nota che il pre-addestramento su questi dataset sintetici porti a miglioramenti significativi nelle prestazioni di rilevamento oggetti. Guardando al futuro, prevediamo vantaggi sostanziali attraverso l'espansione futura del dataset sintetico di pre-addestramento.

English

Motivated by that DETR-based approaches have established new records on COCO detection and segmentation benchmarks, many recent endeavors show increasing interest in how to further improve DETR-based approaches by pre-training the Transformer in a self-supervised manner while keeping the backbone frozen. Some studies already claimed significant improvements in accuracy. In this paper, we take a closer look at their experimental methodology and check if their approaches are still effective on the very recent state-of-the-art such as H-Deformable-DETR. We conduct thorough experiments on COCO object detection tasks to study the influence of the choice of pre-training datasets, localization, and classification target generation schemes. Unfortunately, we find the previous representative self-supervised approach such as DETReg, fails to boost the performance of the strong DETR-based approaches on full data regimes. We further analyze the reasons and find that simply combining a more accurate box predictor and Objects365 benchmark can significantly improve the results in follow-up experiments. We demonstrate the effectiveness of our approach by achieving strong object detection results of AP=59.3% on COCO val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%. Last, we generate a series of synthetic pre-training datasets by combining the very recent image-to-text captioning models (LLaVA) and text-to-image generative models (SDXL). Notably, pre-training on these synthetic datasets leads to notable improvements in object detection performance. Looking ahead, we anticipate substantial advantages through the future expansion of the synthetic pre-training dataset.

Rivalutazione del Pre-addestramento DETR per il Rilevamento di Oggetti

Revisiting DETR Pre-training for Object Detection

Abstract

Support