ChatPaper.aiChatPaper

VHELM: Eine ganzheitliche Bewertung von Modellen für die Verbindung von Vision und Sprache

VHELM: A Holistic Evaluation of Vision Language Models

October 9, 2024
Autoren: Tony Lee, Haoqin Tu, Chi Heem Wong, Wenhao Zheng, Yiyang Zhou, Yifan Mai, Josselin Somerville Roberts, Michihiro Yasunaga, Huaxiu Yao, Cihang Xie, Percy Liang
cs.AI

Zusammenfassung

Aktuelle Maßstäbe zur Bewertung von Vision-Language-Modellen (VLMs) konzentrieren sich oft auf deren Wahrnehmungs- oder Problemlösungsfähigkeiten und vernachlässigen andere wichtige Aspekte wie Fairness, Mehrsprachigkeit oder Toxizität. Darüber hinaus unterscheiden sie sich in ihren Bewertungsverfahren und dem Umfang der Evaluation, was den Vergleich von Modellen erschwert. Um diese Probleme anzugehen, erweitern wir das HELM-Framework auf VLMs, um das Holistic Evaluation of Vision Language Models (VHELM) vorzustellen. VHELM aggregiert verschiedene Datensätze, um eine oder mehrere der 9 Aspekte abzudecken: visuelle Wahrnehmung, Wissen, Schlussfolgerung, Voreingenommenheit, Fairness, Mehrsprachigkeit, Robustheit, Toxizität und Sicherheit. Auf diese Weise bieten wir einen umfassenden, multidimensionalen Blick auf die Fähigkeiten der VLMs in Bezug auf diese wichtigen Faktoren. Darüber hinaus standardisieren wir die standardmäßigen Inferenzparameter, Methoden der Aufforderung und Bewertungsmetriken, um faire Vergleiche zwischen Modellen zu ermöglichen. Unser Framework ist darauf ausgelegt, leichtgewichtig und automatisch zu sein, sodass Evaluierungsläufe kostengünstig und schnell sind. Unser erster Durchlauf bewertet 22 VLMs anhand von 21 bestehenden Datensätzen, um einen ganzheitlichen Überblick über die Modelle zu bieten. Wir entdecken neue wichtige Erkenntnisse, wie zum Beispiel, dass effizienzorientierte Modelle (z. B. Claude 3 Haiku oder Gemini 1.5 Flash) auf dem Bias-Test signifikant schlechter abschneiden als ihre vollständigen Modelle (z. B. Claude 3 Opus oder Gemini 1.5 Pro), jedoch nicht bei der Bewertung der anderen Aspekte. Zur Transparenz veröffentlichen wir die Rohmodell-Generationen und vollständige Ergebnisse auf unserer Website (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM ist als ein fortlaufender Maßstab konzipiert, und wir hoffen, im Laufe der Zeit neue Datensätze und Modelle hinzuzufügen.
English
Current benchmarks for assessing vision-language models (VLMs) often focus on their perception or problem-solving capabilities and neglect other critical aspects such as fairness, multilinguality, or toxicity. Furthermore, they differ in their evaluation procedures and the scope of the evaluation, making it difficult to compare models. To address these issues, we extend the HELM framework to VLMs to present the Holistic Evaluation of Vision Language Models (VHELM). VHELM aggregates various datasets to cover one or more of the 9 aspects: visual perception, knowledge, reasoning, bias, fairness, multilinguality, robustness, toxicity, and safety. In doing so, we produce a comprehensive, multi-dimensional view of the capabilities of the VLMs across these important factors. In addition, we standardize the standard inference parameters, methods of prompting, and evaluation metrics to enable fair comparisons across models. Our framework is designed to be lightweight and automatic so that evaluation runs are cheap and fast. Our initial run evaluates 22 VLMs on 21 existing datasets to provide a holistic snapshot of the models. We uncover new key findings, such as the fact that efficiency-focused models (e.g., Claude 3 Haiku or Gemini 1.5 Flash) perform significantly worse than their full models (e.g., Claude 3 Opus or Gemini 1.5 Pro) on the bias benchmark but not when evaluated on the other aspects. For transparency, we release the raw model generations and complete results on our website (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is intended to be a living benchmark, and we hope to continue adding new datasets and models over time.

Summary

AI-Generated Summary

PDF32November 16, 2024