ChatPaper.aiChatPaper

Revisitando el preentrenamiento de DETR para la detección de objetos

Revisiting DETR Pre-training for Object Detection

August 2, 2023
Autores: Yan Ma, Weicong Liang, Yiduo Hao, Bohan Chen, Xiangyu Yue, Chao Zhang, Yuhui Yuan
cs.AI

Resumen

Motivados por el hecho de que los enfoques basados en DETR han establecido nuevos récords en los benchmarks de detección y segmentación de COCO, muchos esfuerzos recientes muestran un creciente interés en cómo mejorar aún más los enfoques basados en DETR mediante el preentrenamiento del Transformer de manera autosupervisada mientras se mantiene congelado el backbone. Algunos estudios ya han afirmado mejoras significativas en la precisión. En este artículo, examinamos más de cerca su metodología experimental y verificamos si sus enfoques siguen siendo efectivos en el estado del arte más reciente, como H-Deformable-DETR. Realizamos experimentos exhaustivos en tareas de detección de objetos en COCO para estudiar la influencia de la elección de los conjuntos de datos de preentrenamiento, la localización y los esquemas de generación de objetivos de clasificación. Lamentablemente, encontramos que el enfoque autosupervisado representativo anterior, como DETReg, no logra mejorar el rendimiento de los enfoques fuertes basados en DETR en regímenes de datos completos. Analizamos más a fondo las razones y descubrimos que simplemente combinar un predictor de cajas más preciso y el benchmark Objects365 puede mejorar significativamente los resultados en experimentos posteriores. Demostramos la efectividad de nuestro enfoque al lograr fuertes resultados de detección de objetos con un AP=59.3% en el conjunto de validación de COCO, lo que supera a H-Deformable-DETR + Swin-L en +1.4%. Por último, generamos una serie de conjuntos de datos sintéticos de preentrenamiento combinando los modelos más recientes de generación de subtítulos de imagen a texto (LLaVA) y modelos generativos de texto a imagen (SDXL). Cabe destacar que el preentrenamiento en estos conjuntos de datos sintéticos conduce a mejoras notables en el rendimiento de la detección de objetos. De cara al futuro, anticipamos ventajas sustanciales a través de la futura expansión del conjunto de datos sintéticos de preentrenamiento.
English
Motivated by that DETR-based approaches have established new records on COCO detection and segmentation benchmarks, many recent endeavors show increasing interest in how to further improve DETR-based approaches by pre-training the Transformer in a self-supervised manner while keeping the backbone frozen. Some studies already claimed significant improvements in accuracy. In this paper, we take a closer look at their experimental methodology and check if their approaches are still effective on the very recent state-of-the-art such as H-Deformable-DETR. We conduct thorough experiments on COCO object detection tasks to study the influence of the choice of pre-training datasets, localization, and classification target generation schemes. Unfortunately, we find the previous representative self-supervised approach such as DETReg, fails to boost the performance of the strong DETR-based approaches on full data regimes. We further analyze the reasons and find that simply combining a more accurate box predictor and Objects365 benchmark can significantly improve the results in follow-up experiments. We demonstrate the effectiveness of our approach by achieving strong object detection results of AP=59.3% on COCO val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%. Last, we generate a series of synthetic pre-training datasets by combining the very recent image-to-text captioning models (LLaVA) and text-to-image generative models (SDXL). Notably, pre-training on these synthetic datasets leads to notable improvements in object detection performance. Looking ahead, we anticipate substantial advantages through the future expansion of the synthetic pre-training dataset.
PDF90December 15, 2024