ChatPaper.aiChatPaper

Пересмотр предварительного обучения DETR для задачи обнаружения объектов

Revisiting DETR Pre-training for Object Detection

August 2, 2023
Авторы: Yan Ma, Weicong Liang, Yiduo Hao, Bohan Chen, Xiangyu Yue, Chao Zhang, Yuhui Yuan
cs.AI

Аннотация

Вдохновленные тем, что подходы на основе DETR установили новые рекорды на бенчмарках COCO для задач обнаружения и сегментации, многие недавние исследования проявляют растущий интерес к тому, как можно дополнительно улучшить подходы на основе DETR, предварительно обучая Transformer в самообучаемом режиме, сохраняя при этом замороженную основу (backbone). Некоторые исследования уже заявили о значительном улучшении точности. В данной работе мы более внимательно изучим их экспериментальную методологию и проверим, остаются ли их подходы эффективными на фоне самых современных методов, таких как H-Deformable-DETR. Мы проводим тщательные эксперименты на задачах обнаружения объектов COCO, чтобы изучить влияние выбора наборов данных для предварительного обучения, а также схем генерации целей локализации и классификации. К сожалению, мы обнаруживаем, что предыдущие представительные самообучаемые подходы, такие как DETReg, не способны повысить производительность сильных подходов на основе DETR в условиях полного объема данных. Мы дополнительно анализируем причины и обнаруживаем, что простое сочетание более точного предсказателя bounding box и бенчмарка Objects365 может значительно улучшить результаты в последующих экспериментах. Мы демонстрируем эффективность нашего подхода, достигая высоких результатов обнаружения объектов с AP=59,3% на наборе COCO val, что превосходит H-Deformable-DETR + Swin-L на +1,4%. Наконец, мы создаем серию синтетических наборов данных для предварительного обучения, комбинируя современные модели генерации текстовых описаний изображений (LLaVA) и модели генерации изображений из текста (SDXL). Примечательно, что предварительное обучение на этих синтетических наборах данных приводит к заметному улучшению производительности в задачах обнаружения объектов. В перспективе мы ожидаем существенных преимуществ благодаря будущему расширению синтетических наборов данных для предварительного обучения.
English
Motivated by that DETR-based approaches have established new records on COCO detection and segmentation benchmarks, many recent endeavors show increasing interest in how to further improve DETR-based approaches by pre-training the Transformer in a self-supervised manner while keeping the backbone frozen. Some studies already claimed significant improvements in accuracy. In this paper, we take a closer look at their experimental methodology and check if their approaches are still effective on the very recent state-of-the-art such as H-Deformable-DETR. We conduct thorough experiments on COCO object detection tasks to study the influence of the choice of pre-training datasets, localization, and classification target generation schemes. Unfortunately, we find the previous representative self-supervised approach such as DETReg, fails to boost the performance of the strong DETR-based approaches on full data regimes. We further analyze the reasons and find that simply combining a more accurate box predictor and Objects365 benchmark can significantly improve the results in follow-up experiments. We demonstrate the effectiveness of our approach by achieving strong object detection results of AP=59.3% on COCO val set, which surpasses H-Deformable-DETR + Swin-L by +1.4%. Last, we generate a series of synthetic pre-training datasets by combining the very recent image-to-text captioning models (LLaVA) and text-to-image generative models (SDXL). Notably, pre-training on these synthetic datasets leads to notable improvements in object detection performance. Looking ahead, we anticipate substantial advantages through the future expansion of the synthetic pre-training dataset.
PDF90December 15, 2024