Revisitando el preentrenamiento de DETR para la detección de objetos
Revisiting DETR Pre-training for Object Detection
August 2, 2023
Autores: Yan Ma, Weicong Liang, Yiduo Hao, Bohan Chen, Xiangyu Yue, Chao Zhang, Yuhui Yuan
cs.AI
Resumen
Motivados por el hecho de que los enfoques basados en DETR han establecido nuevos récords en los benchmarks de detección y segmentación de COCO, muchos esfuerzos recientes muestran un creciente interés en cómo mejorar aún más los enfoques basados en DETR mediante el preentrenamiento del Transformer de manera autosupervisada mientras se mantiene congelado el backbone. Algunos estudios ya han afirmado mejoras significativas en la precisión. En este artículo, examinamos más de cerca su metodología experimental y verificamos si sus enfoques siguen siendo efectivos en el estado del arte más reciente, como H-Deformable-DETR. Realizamos experimentos exhaustivos en tareas de detección de objetos en COCO para estudiar la influencia de la elección de los conjuntos de datos de preentrenamiento, la localización y los esquemas de generación de objetivos de clasificación. Lamentablemente, encontramos que el enfoque autosupervisado representativo anterior, como DETReg, no logra mejorar el rendimiento de los enfoques fuertes basados en DETR en regímenes de datos completos. Analizamos más a fondo las razones y descubrimos que simplemente combinar un predictor de cajas más preciso y el benchmark Objects365 puede mejorar significativamente los resultados en experimentos posteriores. Demostramos la efectividad de nuestro enfoque al lograr fuertes resultados de detección de objetos con un AP=59.3% en el conjunto de validación de COCO, lo que supera a H-Deformable-DETR + Swin-L en +1.4%. Por último, generamos una serie de conjuntos de datos sintéticos de preentrenamiento combinando los modelos más recientes de generación de subtítulos de imagen a texto (LLaVA) y modelos generativos de texto a imagen (SDXL). Cabe destacar que el preentrenamiento en estos conjuntos de datos sintéticos conduce a mejoras notables en el rendimiento de la detección de objetos. De cara al futuro, anticipamos ventajas sustanciales a través de la futura expansión del conjunto de datos sintéticos de preentrenamiento.
English
Motivated by that DETR-based approaches have established new records on COCO
detection and segmentation benchmarks, many recent endeavors show increasing
interest in how to further improve DETR-based approaches by pre-training the
Transformer in a self-supervised manner while keeping the backbone frozen. Some
studies already claimed significant improvements in accuracy. In this paper, we
take a closer look at their experimental methodology and check if their
approaches are still effective on the very recent state-of-the-art such as
H-Deformable-DETR. We conduct thorough experiments on COCO object
detection tasks to study the influence of the choice of pre-training datasets,
localization, and classification target generation schemes. Unfortunately, we
find the previous representative self-supervised approach such as DETReg, fails
to boost the performance of the strong DETR-based approaches on full data
regimes. We further analyze the reasons and find that simply combining a more
accurate box predictor and Objects365 benchmark can significantly improve the
results in follow-up experiments. We demonstrate the effectiveness of our
approach by achieving strong object detection results of AP=59.3% on COCO
val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%.
Last, we generate a series of synthetic pre-training datasets by combining the
very recent image-to-text captioning models (LLaVA) and text-to-image
generative models (SDXL). Notably, pre-training on these synthetic datasets
leads to notable improvements in object detection performance. Looking ahead,
we anticipate substantial advantages through the future expansion of the
synthetic pre-training dataset.