CatLIP: Точность визуального распознавания на уровне CLIP с ускорением в 2,7 раза
Предварительное обучение на веб-масштабных данных изображений и текста.CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster
Pre-training on Web-scale Image-Text Data
Контрастное обучение стало трансформационным методом для обучения эффективных визуальных представлений путем выравнивания вложений изображения и текста. Однако вычисление попарной схожести в контрастной потере между парами изображений и текста представляет вычислительные сложности. В данной статье представлен новый метод слабо контролируемого предварительного обучения моделей зрения на веб-масштабных данных изображений и текста. Предложенный метод переформулирует предварительное обучение на данных изображения и текста как задачу классификации. В результате этого он устраняет необходимость в вычислениях попарной схожести в контрастной потере, достигая заметного ускорения в 2,7 раза по сравнению с контрастным обучением на веб-масштабных данных. Через обширные эксперименты, охватывающие различные задачи зрения, включая детекцию и сегментацию, мы демонстрируем, что предложенный метод сохраняет высокое качество представления. Наш исходный код вместе с весами предварительно обученной модели и рецептами обучения доступен по адресу https://github.com/apple/corenet.