Пересмотр предварительного обучения DETR для задачи обнаружения объектов
Revisiting DETR Pre-training for Object Detection
August 2, 2023
Авторы: Yan Ma, Weicong Liang, Yiduo Hao, Bohan Chen, Xiangyu Yue, Chao Zhang, Yuhui Yuan
cs.AI
Аннотация
Вдохновленные тем, что подходы на основе DETR установили новые рекорды на бенчмарках COCO для задач обнаружения и сегментации, многие недавние исследования проявляют растущий интерес к тому, как можно дополнительно улучшить подходы на основе DETR, предварительно обучая Transformer в самообучаемом режиме, сохраняя при этом замороженную основу (backbone). Некоторые исследования уже заявили о значительном улучшении точности. В данной работе мы более внимательно изучим их экспериментальную методологию и проверим, остаются ли их подходы эффективными на фоне самых современных методов, таких как H-Deformable-DETR. Мы проводим тщательные эксперименты на задачах обнаружения объектов COCO, чтобы изучить влияние выбора наборов данных для предварительного обучения, а также схем генерации целей локализации и классификации. К сожалению, мы обнаруживаем, что предыдущие представительные самообучаемые подходы, такие как DETReg, не способны повысить производительность сильных подходов на основе DETR в условиях полного объема данных. Мы дополнительно анализируем причины и обнаруживаем, что простое сочетание более точного предсказателя bounding box и бенчмарка Objects365 может значительно улучшить результаты в последующих экспериментах. Мы демонстрируем эффективность нашего подхода, достигая высоких результатов обнаружения объектов с AP=59,3% на наборе COCO val, что превосходит H-Deformable-DETR + Swin-L на +1,4%. Наконец, мы создаем серию синтетических наборов данных для предварительного обучения, комбинируя современные модели генерации текстовых описаний изображений (LLaVA) и модели генерации изображений из текста (SDXL). Примечательно, что предварительное обучение на этих синтетических наборах данных приводит к заметному улучшению производительности в задачах обнаружения объектов. В перспективе мы ожидаем существенных преимуществ благодаря будущему расширению синтетических наборов данных для предварительного обучения.
English
Motivated by that DETR-based approaches have established new records on COCO
detection and segmentation benchmarks, many recent endeavors show increasing
interest in how to further improve DETR-based approaches by pre-training the
Transformer in a self-supervised manner while keeping the backbone frozen. Some
studies already claimed significant improvements in accuracy. In this paper, we
take a closer look at their experimental methodology and check if their
approaches are still effective on the very recent state-of-the-art such as
H-Deformable-DETR. We conduct thorough experiments on COCO object
detection tasks to study the influence of the choice of pre-training datasets,
localization, and classification target generation schemes. Unfortunately, we
find the previous representative self-supervised approach such as DETReg, fails
to boost the performance of the strong DETR-based approaches on full data
regimes. We further analyze the reasons and find that simply combining a more
accurate box predictor and Objects365 benchmark can significantly improve the
results in follow-up experiments. We demonstrate the effectiveness of our
approach by achieving strong object detection results of AP=59.3% on COCO
val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%.
Last, we generate a series of synthetic pre-training datasets by combining the
very recent image-to-text captioning models (LLaVA) and text-to-image
generative models (SDXL). Notably, pre-training on these synthetic datasets
leads to notable improvements in object detection performance. Looking ahead,
we anticipate substantial advantages through the future expansion of the
synthetic pre-training dataset.