ChatPaper.aiChatPaper

LOVM: Selección de Modelos de Visión Basados Únicamente en Lenguaje

LOVM: Language-Only Vision Model Selection

June 15, 2023
Autores: Orr Zohar, Shih-Cheng Huang, Kuan-Chieh Wang, Serena Yeung
cs.AI

Resumen

Los modelos preentrenados multimodales de visión y lenguaje (VLMs, por sus siglas en inglés) están ganando popularidad debido a su excepcional rendimiento en aplicaciones de visión descendente, especialmente en escenarios de pocos ejemplos (few-shot) y sin ejemplos (zero-shot). Sin embargo, seleccionar el VLM con mejor rendimiento para ciertas aplicaciones descendentes no es trivial, ya que depende del conjunto de datos y la tarea específica. Además, la evaluación exhaustiva de todos los VLMs disponibles en una aplicación novedosa no solo es demandante en términos de tiempo y recursos computacionales, sino que también requiere la recopilación de un conjunto de datos etiquetado para la evaluación. A medida que aumenta el número de variantes de VLMs de código abierto, surge la necesidad de una estrategia eficiente de selección de modelos que no requiera acceso a un conjunto de datos de evaluación curado. Este artículo propone una nueva tarea y un punto de referencia para evaluar de manera eficiente el rendimiento zero-shot de los VLMs en aplicaciones descendentes sin acceso al conjunto de datos de la tarea descendente. Específicamente, introducimos una nueva tarea llamada LOVM: Selección de Modelos de Visión Basada Solo en Lenguaje, donde se espera que los métodos realicen tanto la selección de modelos como la predicción de rendimiento basándose únicamente en una descripción textual de la aplicación descendente deseada. Luego, presentamos un extenso punto de referencia LOVM que consiste en evaluaciones de referencia de 35 VLMs preentrenados y 23 conjuntos de datos, donde se espera que los métodos clasifiquen los VLMs preentrenados y predigan su rendimiento zero-shot.
English
Pre-trained multi-modal vision-language models (VLMs) are becoming increasingly popular due to their exceptional performance on downstream vision applications, particularly in the few- and zero-shot settings. However, selecting the best-performing VLM for some downstream applications is non-trivial, as it is dataset and task-dependent. Meanwhile, the exhaustive evaluation of all available VLMs on a novel application is not only time and computationally demanding but also necessitates the collection of a labeled dataset for evaluation. As the number of open-source VLM variants increases, there is a need for an efficient model selection strategy that does not require access to a curated evaluation dataset. This paper proposes a novel task and benchmark for efficiently evaluating VLMs' zero-shot performance on downstream applications without access to the downstream task dataset. Specifically, we introduce a new task LOVM: Language-Only Vision Model Selection, where methods are expected to perform both model selection and performance prediction based solely on a text description of the desired downstream application. We then introduced an extensive LOVM benchmark consisting of ground-truth evaluations of 35 pre-trained VLMs and 23 datasets, where methods are expected to rank the pre-trained VLMs and predict their zero-shot performance.
PDF70December 15, 2024