LOVM: Seleção de Modelos de Visão Baseados Apenas em Linguagem
LOVM: Language-Only Vision Model Selection
June 15, 2023
Autores: Orr Zohar, Shih-Cheng Huang, Kuan-Chieh Wang, Serena Yeung
cs.AI
Resumo
Modelos de visão e linguagem multimodal pré-treinados (VLMs, na sigla em inglês) estão se tornando cada vez mais populares devido ao seu desempenho excepcional em aplicações de visão computacional, especialmente em cenários de poucos exemplos (few-shot) e sem exemplos (zero-shot). No entanto, selecionar o VLM com melhor desempenho para determinadas aplicações downstream não é trivial, pois depende do conjunto de dados e da tarefa específica. Enquanto isso, a avaliação exaustiva de todos os VLMs disponíveis para uma nova aplicação não só é exigente em termos de tempo e recursos computacionais, mas também requer a coleta de um conjunto de dados rotulado para avaliação. À medida que o número de variantes de VLMs de código aberto aumenta, surge a necessidade de uma estratégia eficiente de seleção de modelos que não dependa de acesso a um conjunto de dados de avaliação curado. Este artigo propõe uma nova tarefa e benchmark para avaliar de forma eficiente o desempenho zero-shot de VLMs em aplicações downstream sem acesso ao conjunto de dados da tarefa específica. Especificamente, introduzimos uma nova tarefa chamada LOVM: Seleção de Modelos de Visão Baseada Apenas em Linguagem, na qual os métodos devem realizar tanto a seleção de modelos quanto a previsão de desempenho com base apenas em uma descrição textual da aplicação downstream desejada. Em seguida, apresentamos um benchmark LOVM extenso, composto por avaliações de referência de 35 VLMs pré-treinados e 23 conjuntos de dados, onde os métodos devem classificar os VLMs pré-treinados e prever seu desempenho zero-shot.
English
Pre-trained multi-modal vision-language models (VLMs) are becoming
increasingly popular due to their exceptional performance on downstream vision
applications, particularly in the few- and zero-shot settings. However,
selecting the best-performing VLM for some downstream applications is
non-trivial, as it is dataset and task-dependent. Meanwhile, the exhaustive
evaluation of all available VLMs on a novel application is not only time and
computationally demanding but also necessitates the collection of a labeled
dataset for evaluation. As the number of open-source VLM variants increases,
there is a need for an efficient model selection strategy that does not require
access to a curated evaluation dataset. This paper proposes a novel task and
benchmark for efficiently evaluating VLMs' zero-shot performance on downstream
applications without access to the downstream task dataset. Specifically, we
introduce a new task LOVM: Language-Only Vision Model Selection, where methods
are expected to perform both model selection and performance prediction based
solely on a text description of the desired downstream application. We then
introduced an extensive LOVM benchmark consisting of ground-truth evaluations
of 35 pre-trained VLMs and 23 datasets, where methods are expected to rank the
pre-trained VLMs and predict their zero-shot performance.