Revisitando o Pré-treinamento do DETR para Detecção de Objetos
Revisiting DETR Pre-training for Object Detection
August 2, 2023
Autores: Yan Ma, Weicong Liang, Yiduo Hao, Bohan Chen, Xiangyu Yue, Chao Zhang, Yuhui Yuan
cs.AI
Resumo
Motivados pelo fato de que abordagens baseadas em DETR estabeleceram novos recordes nos benchmarks de detecção e segmentação do COCO, muitos esforços recentes demonstram um interesse crescente em como melhorar ainda mais as abordagens baseadas em DETR por meio do pré-treinamento do Transformer de maneira auto-supervisionada, mantendo o backbone congelado. Alguns estudos já relataram melhorias significativas na precisão. Neste artigo, examinamos mais de perto a metodologia experimental desses estudos e verificamos se suas abordagens ainda são eficazes em relação aos métodos mais recentes de ponta, como o H-Deformable-DETR. Realizamos experimentos detalhados em tarefas de detecção de objetos do COCO para estudar a influência da escolha dos conjuntos de dados de pré-treinamento, da localização e dos esquemas de geração de alvos de classificação. Infelizmente, descobrimos que abordagens auto-supervisionadas representativas anteriores, como o DETReg, não conseguem impulsionar o desempenho de abordagens baseadas em DETR robustas em regimes de dados completos. Analisamos ainda as razões e descobrimos que a simples combinação de um preditor de caixas mais preciso e o benchmark Objects365 pode melhorar significativamente os resultados em experimentos subsequentes. Demonstramos a eficácia de nossa abordagem ao alcançar resultados robustos de detecção de objetos com AP=59,3% no conjunto de validação do COCO, superando o H-Deformable-DETR + Swin-L em +1,4%. Por fim, geramos uma série de conjuntos de dados sintéticos de pré-treinamento combinando os mais recentes modelos de geração de legendas de imagem para texto (LLaVA) e modelos generativos de texto para imagem (SDXL). Notavelmente, o pré-treinamento nesses conjuntos de dados sintéticos leva a melhorias significativas no desempenho da detecção de objetos. Olhando para o futuro, antecipamos vantagens substanciais com a expansão futura do conjunto de dados sintéticos de pré-treinamento.
English
Motivated by that DETR-based approaches have established new records on COCO
detection and segmentation benchmarks, many recent endeavors show increasing
interest in how to further improve DETR-based approaches by pre-training the
Transformer in a self-supervised manner while keeping the backbone frozen. Some
studies already claimed significant improvements in accuracy. In this paper, we
take a closer look at their experimental methodology and check if their
approaches are still effective on the very recent state-of-the-art such as
H-Deformable-DETR. We conduct thorough experiments on COCO object
detection tasks to study the influence of the choice of pre-training datasets,
localization, and classification target generation schemes. Unfortunately, we
find the previous representative self-supervised approach such as DETReg, fails
to boost the performance of the strong DETR-based approaches on full data
regimes. We further analyze the reasons and find that simply combining a more
accurate box predictor and Objects365 benchmark can significantly improve the
results in follow-up experiments. We demonstrate the effectiveness of our
approach by achieving strong object detection results of AP=59.3% on COCO
val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%.
Last, we generate a series of synthetic pre-training datasets by combining the
very recent image-to-text captioning models (LLaVA) and text-to-image
generative models (SDXL). Notably, pre-training on these synthetic datasets
leads to notable improvements in object detection performance. Looking ahead,
we anticipate substantial advantages through the future expansion of the
synthetic pre-training dataset.