Пересмотр предварительного обучения DETR для задачи обнаружения объектов

Аннотация

Вдохновленные тем, что подходы на основе DETR установили новые рекорды на бенчмарках COCO для задач обнаружения и сегментации, многие недавние исследования проявляют растущий интерес к тому, как можно дополнительно улучшить подходы на основе DETR, предварительно обучая Transformer в самообучаемом режиме, сохраняя при этом замороженную основу (backbone). Некоторые исследования уже заявили о значительном улучшении точности. В данной работе мы более внимательно изучим их экспериментальную методологию и проверим, остаются ли их подходы эффективными на фоне самых современных методов, таких как H-Deformable-DETR. Мы проводим тщательные эксперименты на задачах обнаружения объектов COCO, чтобы изучить влияние выбора наборов данных для предварительного обучения, а также схем генерации целей локализации и классификации. К сожалению, мы обнаруживаем, что предыдущие представительные самообучаемые подходы, такие как DETReg, не способны повысить производительность сильных подходов на основе DETR в условиях полного объема данных. Мы дополнительно анализируем причины и обнаруживаем, что простое сочетание более точного предсказателя bounding box и бенчмарка Objects365 может значительно улучшить результаты в последующих экспериментах. Мы демонстрируем эффективность нашего подхода, достигая высоких результатов обнаружения объектов с AP=59,3% на наборе COCO val, что превосходит H-Deformable-DETR + Swin-L на +1,4%. Наконец, мы создаем серию синтетических наборов данных для предварительного обучения, комбинируя современные модели генерации текстовых описаний изображений (LLaVA) и модели генерации изображений из текста (SDXL). Примечательно, что предварительное обучение на этих синтетических наборах данных приводит к заметному улучшению производительности в задачах обнаружения объектов. В перспективе мы ожидаем существенных преимуществ благодаря будущему расширению синтетических наборов данных для предварительного обучения.

English

Motivated by that DETR-based approaches have established new records on COCO detection and segmentation benchmarks, many recent endeavors show increasing interest in how to further improve DETR-based approaches by pre-training the Transformer in a self-supervised manner while keeping the backbone frozen. Some studies already claimed significant improvements in accuracy. In this paper, we take a closer look at their experimental methodology and check if their approaches are still effective on the very recent state-of-the-art such as H-Deformable-DETR. We conduct thorough experiments on COCO object detection tasks to study the influence of the choice of pre-training datasets, localization, and classification target generation schemes. Unfortunately, we find the previous representative self-supervised approach such as DETReg, fails to boost the performance of the strong DETR-based approaches on full data regimes. We further analyze the reasons and find that simply combining a more accurate box predictor and Objects365 benchmark can significantly improve the results in follow-up experiments. We demonstrate the effectiveness of our approach by achieving strong object detection results of AP=59.3% on COCO val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%. Last, we generate a series of synthetic pre-training datasets by combining the very recent image-to-text captioning models (LLaVA) and text-to-image generative models (SDXL). Notably, pre-training on these synthetic datasets leads to notable improvements in object detection performance. Looking ahead, we anticipate substantial advantages through the future expansion of the synthetic pre-training dataset.

Пересмотр предварительного обучения DETR для задачи обнаружения объектов

Revisiting DETR Pre-training for Object Detection

Аннотация

Support