ChatPaper.aiChatPaper

Масштабирование детекции объектов с открытым словарем

Scaling Open-Vocabulary Object Detection

June 16, 2023
Авторы: Matthias Minderer, Alexey Gritsenko, Neil Houlsby
cs.AI

Аннотация

Обнаружение объектов с открытым словарным запасом значительно выиграло от предварительно обученных моделей, связывающих визуальные и текстовые данные, но всё ещё ограничено объёмом доступных данных для обучения обнаружению. Хотя данные для обучения обнаружению можно расширить, используя пары изображение-текст из интернета в качестве слабого надзора, это не было реализовано в масштабах, сопоставимых с предварительным обучением на уровне изображений. В данной работе мы масштабируем данные для обнаружения с помощью самообучения, которое использует существующий детектор для генерации псевдоаннотаций ограничивающих рамок на парах изображение-текст. Основные проблемы при масштабировании самообучения включают выбор пространства меток, фильтрацию псевдоаннотаций и эффективность обучения. Мы представляем модель OWLv2 и метод самообучения OWL-ST, которые решают эти проблемы. OWLv2 превосходит производительность предыдущих передовых детекторов с открытым словарным запасом уже на сопоставимых масштабах обучения (~10 млн примеров). Однако с использованием OWL-ST мы можем масштабироваться до более чем 1 млрд примеров, что приводит к значительному улучшению: с архитектурой L/14 OWL-ST улучшает среднюю точность (AP) на редких классах LVIS, для которых модель не видела аннотаций ограничивающих рамок, созданных человеком, с 31,2% до 44,6% (относительное улучшение на 43%). OWL-ST открывает возможность обучения в масштабах интернета для локализации в открытом мире, аналогично тому, что уже было достигнуто для классификации изображений и языкового моделирования.
English
Open-vocabulary object detection has benefited greatly from pretrained vision-language models, but is still limited by the amount of available detection training data. While detection training data can be expanded by using Web image-text pairs as weak supervision, this has not been done at scales comparable to image-level pretraining. Here, we scale up detection data with self-training, which uses an existing detector to generate pseudo-box annotations on image-text pairs. Major challenges in scaling self-training are the choice of label space, pseudo-annotation filtering, and training efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which address these challenges. OWLv2 surpasses the performance of previous state-of-the-art open-vocabulary detectors already at comparable training scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples, yielding further large improvement: With an L/14 architecture, OWL-ST improves AP on LVIS rare classes, for which the model has seen no human box annotations, from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale training for open-world localization, similar to what has been seen for image classification and language modelling.
PDF132December 15, 2024