ChatPaper.aiChatPaper

AutoCLIP: Автоматическая настройка классификаторов с нулевым обучением для моделей "визуальный язык"

AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models

September 28, 2023
Авторы: Jan Hendrik Metzen, Piyapat Saranrittichai, Chaithanya Kumar Mummadi
cs.AI

Аннотация

Классификаторы, построенные на основе моделей, объединяющих зрение и язык, таких как CLIP, демонстрируют впечатляющую производительность в задачах классификации изображений в условиях нулевого обучения (zero-shot) на широком спектре задач. Предыдущие исследования изучали различные способы автоматического создания наборов дескрипторов для каждого класса на основе шаблонов запросов (prompt templates), начиная от шаблонов, разработанных вручную, до шаблонов, полученных с помощью крупных языковых моделей, и шаблонов, составленных из случайных слов и символов. В то же время, подход к созданию классификаторов в условиях нулевого обучения на основе закодированных дескрипторов классов оставался практически неизменным: классификация осуществляется в пользу класса, который максимизирует косинусное сходство между усреднёнными закодированными дескрипторами класса и закодированным изображением. Однако равное взвешивание всех дескрипторов класса может быть неоптимальным, если некоторые дескрипторы лучше соответствуют визуальным признакам на конкретном изображении, чем другие. В данной работе мы предлагаем AutoCLIP — метод автоматической настройки классификаторов в условиях нулевого обучения. AutoCLIP назначает каждому шаблону запроса веса, зависящие от изображения, которые выводятся из статистики сходства дескрипторов класса и изображения на этапе вывода. AutoCLIP полностью не требует обучения, имеет минимальные накладные расходы и может быть легко реализован в несколько строк кода. Мы показываем, что для широкого спектра моделей, объединяющих зрение и язык, наборов данных и шаблонов запросов AutoCLIP стабильно превосходит базовые подходы, достигая улучшения точности до 3 процентных пунктов.
English
Classifiers built upon vision-language models such as CLIP have shown remarkable zero-shot performance across a broad range of image classification tasks. Prior work has studied different ways of automatically creating descriptor sets for every class based on prompt templates, ranging from manually engineered templates over templates obtained from a large language model to templates built from random words and characters. In contrast, deriving zero-shot classifiers from the respective encoded class descriptors has remained nearly unchanged, that is: classify to the class that maximizes the cosine similarity between its averaged encoded class descriptors and the encoded image. However, weighting all class descriptors equally can be suboptimal when certain descriptors match visual clues on a given image better than others. In this work, we propose AutoCLIP, a method for auto-tuning zero-shot classifiers. AutoCLIP assigns to each prompt template per-image weights, which are derived from statistics of class descriptor-image similarities at inference time. AutoCLIP is fully unsupervised, has very low overhead, and can be easily implemented in few lines of code. We show that for a broad range of vision-language models, datasets, and prompt templates, AutoCLIP outperforms baselines consistently and by up to 3 percent point accuracy.
PDF192December 15, 2024