Revisitando o Pré-treinamento do DETR para Detecção de Objetos

Resumo

Motivados pelo fato de que abordagens baseadas em DETR estabeleceram novos recordes nos benchmarks de detecção e segmentação do COCO, muitos esforços recentes demonstram um interesse crescente em como melhorar ainda mais as abordagens baseadas em DETR por meio do pré-treinamento do Transformer de maneira auto-supervisionada, mantendo o backbone congelado. Alguns estudos já relataram melhorias significativas na precisão. Neste artigo, examinamos mais de perto a metodologia experimental desses estudos e verificamos se suas abordagens ainda são eficazes em relação aos métodos mais recentes de ponta, como o H-Deformable-DETR. Realizamos experimentos detalhados em tarefas de detecção de objetos do COCO para estudar a influência da escolha dos conjuntos de dados de pré-treinamento, da localização e dos esquemas de geração de alvos de classificação. Infelizmente, descobrimos que abordagens auto-supervisionadas representativas anteriores, como o DETReg, não conseguem impulsionar o desempenho de abordagens baseadas em DETR robustas em regimes de dados completos. Analisamos ainda as razões e descobrimos que a simples combinação de um preditor de caixas mais preciso e o benchmark Objects365 pode melhorar significativamente os resultados em experimentos subsequentes. Demonstramos a eficácia de nossa abordagem ao alcançar resultados robustos de detecção de objetos com AP=59,3% no conjunto de validação do COCO, superando o H-Deformable-DETR + Swin-L em +1,4%. Por fim, geramos uma série de conjuntos de dados sintéticos de pré-treinamento combinando os mais recentes modelos de geração de legendas de imagem para texto (LLaVA) e modelos generativos de texto para imagem (SDXL). Notavelmente, o pré-treinamento nesses conjuntos de dados sintéticos leva a melhorias significativas no desempenho da detecção de objetos. Olhando para o futuro, antecipamos vantagens substanciais com a expansão futura do conjunto de dados sintéticos de pré-treinamento.

English

Motivated by that DETR-based approaches have established new records on COCO detection and segmentation benchmarks, many recent endeavors show increasing interest in how to further improve DETR-based approaches by pre-training the Transformer in a self-supervised manner while keeping the backbone frozen. Some studies already claimed significant improvements in accuracy. In this paper, we take a closer look at their experimental methodology and check if their approaches are still effective on the very recent state-of-the-art such as H-Deformable-DETR. We conduct thorough experiments on COCO object detection tasks to study the influence of the choice of pre-training datasets, localization, and classification target generation schemes. Unfortunately, we find the previous representative self-supervised approach such as DETReg, fails to boost the performance of the strong DETR-based approaches on full data regimes. We further analyze the reasons and find that simply combining a more accurate box predictor and Objects365 benchmark can significantly improve the results in follow-up experiments. We demonstrate the effectiveness of our approach by achieving strong object detection results of AP=59.3% on COCO val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%. Last, we generate a series of synthetic pre-training datasets by combining the very recent image-to-text captioning models (LLaVA) and text-to-image generative models (SDXL). Notably, pre-training on these synthetic datasets leads to notable improvements in object detection performance. Looking ahead, we anticipate substantial advantages through the future expansion of the synthetic pre-training dataset.

Revisitando o Pré-treinamento do DETR para Detecção de Objetos

Revisiting DETR Pre-training for Object Detection

Resumo

Support