ChatPaper.aiChatPaper

LOVM: Sprachbasiertes Auswahlmodell für Vision-Modelle

LOVM: Language-Only Vision Model Selection

June 15, 2023
Autoren: Orr Zohar, Shih-Cheng Huang, Kuan-Chieh Wang, Serena Yeung
cs.AI

Zusammenfassung

Vortrainierte multimodale Vision-Sprach-Modelle (VLMs) gewinnen aufgrund ihrer außergewöhnlichen Leistung bei nachgelagerten Vision-Anwendungen, insbesondere in Few-Shot- und Zero-Shot-Szenarien, zunehmend an Popularität. Die Auswahl des leistungsstärksten VLM für bestimmte nachgelagerte Anwendungen ist jedoch nicht trivial, da sie von Datensatz und Aufgabe abhängt. Gleichzeitig ist die umfassende Evaluierung aller verfügbaren VLMs für eine neue Anwendung nicht nur zeit- und rechenintensiv, sondern erfordert auch die Erstellung eines annotierten Datensatzes für die Bewertung. Mit der zunehmenden Anzahl von Open-Source-VLM-Varianten besteht die Notwendigkeit einer effizienten Modellauswahlstrategie, die keinen Zugriff auf einen kuratierten Evaluierungsdatensatz erfordert. Dieses Papier schlägt eine neue Aufgabe und ein Benchmark vor, um die Zero-Shot-Leistung von VLMs bei nachgelagerten Anwendungen effizient zu bewerten, ohne Zugriff auf den Datensatz der nachgelagerten Aufgabe zu haben. Konkret führen wir eine neue Aufgabe namens LOVM (Language-Only Vision Model Selection) ein, bei der Methoden sowohl die Modellauswahl als auch die Leistungsvorhersage allein basierend auf einer Textbeschreibung der gewünschten nachgelagerten Anwendung durchführen sollen. Anschließend stellen wir einen umfangreichen LOVM-Benchmark vor, der Ground-Truth-Evaluierungen von 35 vortrainierten VLMs und 23 Datensätzen umfasst, bei dem Methoden die vortrainierten VLMs bewerten und ihre Zero-Shot-Leistung vorhersagen sollen.
English
Pre-trained multi-modal vision-language models (VLMs) are becoming increasingly popular due to their exceptional performance on downstream vision applications, particularly in the few- and zero-shot settings. However, selecting the best-performing VLM for some downstream applications is non-trivial, as it is dataset and task-dependent. Meanwhile, the exhaustive evaluation of all available VLMs on a novel application is not only time and computationally demanding but also necessitates the collection of a labeled dataset for evaluation. As the number of open-source VLM variants increases, there is a need for an efficient model selection strategy that does not require access to a curated evaluation dataset. This paper proposes a novel task and benchmark for efficiently evaluating VLMs' zero-shot performance on downstream applications without access to the downstream task dataset. Specifically, we introduce a new task LOVM: Language-Only Vision Model Selection, where methods are expected to perform both model selection and performance prediction based solely on a text description of the desired downstream application. We then introduced an extensive LOVM benchmark consisting of ground-truth evaluations of 35 pre-trained VLMs and 23 datasets, where methods are expected to rank the pre-trained VLMs and predict their zero-shot performance.
PDF70December 15, 2024