ChatPaper.aiChatPaper

Revisitando o Pré-treinamento do DETR para Detecção de Objetos

Revisiting DETR Pre-training for Object Detection

August 2, 2023
Autores: Yan Ma, Weicong Liang, Yiduo Hao, Bohan Chen, Xiangyu Yue, Chao Zhang, Yuhui Yuan
cs.AI

Resumo

Motivados pelo fato de que abordagens baseadas em DETR estabeleceram novos recordes nos benchmarks de detecção e segmentação do COCO, muitos esforços recentes demonstram um interesse crescente em como melhorar ainda mais as abordagens baseadas em DETR por meio do pré-treinamento do Transformer de maneira auto-supervisionada, mantendo o backbone congelado. Alguns estudos já relataram melhorias significativas na precisão. Neste artigo, examinamos mais de perto a metodologia experimental desses estudos e verificamos se suas abordagens ainda são eficazes em relação aos métodos mais recentes de ponta, como o H-Deformable-DETR. Realizamos experimentos detalhados em tarefas de detecção de objetos do COCO para estudar a influência da escolha dos conjuntos de dados de pré-treinamento, da localização e dos esquemas de geração de alvos de classificação. Infelizmente, descobrimos que abordagens auto-supervisionadas representativas anteriores, como o DETReg, não conseguem impulsionar o desempenho de abordagens baseadas em DETR robustas em regimes de dados completos. Analisamos ainda as razões e descobrimos que a simples combinação de um preditor de caixas mais preciso e o benchmark Objects365 pode melhorar significativamente os resultados em experimentos subsequentes. Demonstramos a eficácia de nossa abordagem ao alcançar resultados robustos de detecção de objetos com AP=59,3% no conjunto de validação do COCO, superando o H-Deformable-DETR + Swin-L em +1,4%. Por fim, geramos uma série de conjuntos de dados sintéticos de pré-treinamento combinando os mais recentes modelos de geração de legendas de imagem para texto (LLaVA) e modelos generativos de texto para imagem (SDXL). Notavelmente, o pré-treinamento nesses conjuntos de dados sintéticos leva a melhorias significativas no desempenho da detecção de objetos. Olhando para o futuro, antecipamos vantagens substanciais com a expansão futura do conjunto de dados sintéticos de pré-treinamento.
English
Motivated by that DETR-based approaches have established new records on COCO detection and segmentation benchmarks, many recent endeavors show increasing interest in how to further improve DETR-based approaches by pre-training the Transformer in a self-supervised manner while keeping the backbone frozen. Some studies already claimed significant improvements in accuracy. In this paper, we take a closer look at their experimental methodology and check if their approaches are still effective on the very recent state-of-the-art such as H-Deformable-DETR. We conduct thorough experiments on COCO object detection tasks to study the influence of the choice of pre-training datasets, localization, and classification target generation schemes. Unfortunately, we find the previous representative self-supervised approach such as DETReg, fails to boost the performance of the strong DETR-based approaches on full data regimes. We further analyze the reasons and find that simply combining a more accurate box predictor and Objects365 benchmark can significantly improve the results in follow-up experiments. We demonstrate the effectiveness of our approach by achieving strong object detection results of AP=59.3% on COCO val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%. Last, we generate a series of synthetic pre-training datasets by combining the very recent image-to-text captioning models (LLaVA) and text-to-image generative models (SDXL). Notably, pre-training on these synthetic datasets leads to notable improvements in object detection performance. Looking ahead, we anticipate substantial advantages through the future expansion of the synthetic pre-training dataset.
PDF90December 15, 2024