LOVM: Выбор моделей компьютерного зрения на основе языковых данных
LOVM: Language-Only Vision Model Selection
June 15, 2023
Авторы: Orr Zohar, Shih-Cheng Huang, Kuan-Chieh Wang, Serena Yeung
cs.AI
Аннотация
Предварительно обученные мультимодальные модели, объединяющие зрение и язык (Vision-Language Models, VLMs), становятся все более популярными благодаря их выдающейся производительности в приложениях, связанных с обработкой изображений, особенно в условиях ограниченного количества данных (few-shot) и их полного отсутствия (zero-shot). Однако выбор наиболее эффективной VLM для конкретного приложения является нетривиальной задачей, так как он зависит от набора данных и задачи. При этом полное тестирование всех доступных VLMs для нового приложения не только требует значительных временных и вычислительных ресурсов, но и предполагает сбор размеченного набора данных для оценки. По мере увеличения числа открытых вариантов VLMs возникает необходимость в эффективной стратегии выбора модели, которая не требует доступа к подготовленному набору данных для оценки. В данной статье предлагается новая задача и эталонный тест для эффективной оценки zero-shot производительности VLMs в приложениях без доступа к данным целевой задачи. В частности, мы представляем новую задачу LOVM: Language-Only Vision Model Selection (Выбор модели на основе только текстового описания), где методы должны выполнять как выбор модели, так и прогнозирование ее производительности исключительно на основе текстового описания целевого приложения. Затем мы представляем обширный эталонный тест LOVM, состоящий из оценок 35 предварительно обученных VLMs и 23 наборов данных, где методы должны ранжировать предварительно обученные VLMs и предсказывать их zero-shot производительность.
English
Pre-trained multi-modal vision-language models (VLMs) are becoming
increasingly popular due to their exceptional performance on downstream vision
applications, particularly in the few- and zero-shot settings. However,
selecting the best-performing VLM for some downstream applications is
non-trivial, as it is dataset and task-dependent. Meanwhile, the exhaustive
evaluation of all available VLMs on a novel application is not only time and
computationally demanding but also necessitates the collection of a labeled
dataset for evaluation. As the number of open-source VLM variants increases,
there is a need for an efficient model selection strategy that does not require
access to a curated evaluation dataset. This paper proposes a novel task and
benchmark for efficiently evaluating VLMs' zero-shot performance on downstream
applications without access to the downstream task dataset. Specifically, we
introduce a new task LOVM: Language-Only Vision Model Selection, where methods
are expected to perform both model selection and performance prediction based
solely on a text description of the desired downstream application. We then
introduced an extensive LOVM benchmark consisting of ground-truth evaluations
of 35 pre-trained VLMs and 23 datasets, where methods are expected to rank the
pre-trained VLMs and predict their zero-shot performance.