ChatPaper.aiChatPaper

VHELM : Une Évaluation Holistique des Modèles Vision Langage

VHELM: A Holistic Evaluation of Vision Language Models

October 9, 2024
Auteurs: Tony Lee, Haoqin Tu, Chi Heem Wong, Wenhao Zheng, Yiyang Zhou, Yifan Mai, Josselin Somerville Roberts, Michihiro Yasunaga, Huaxiu Yao, Cihang Xie, Percy Liang
cs.AI

Résumé

Les benchmarks actuels pour évaluer les modèles vision-langage (VLM) se concentrent souvent sur leurs capacités de perception ou de résolution de problèmes et négligent d'autres aspects critiques tels que l'équité, la multilinguisme ou la toxicité. De plus, ils diffèrent dans leurs procédures d'évaluation et la portée de l'évaluation, ce qui rend difficile la comparaison des modèles. Pour résoudre ces problèmes, nous étendons le cadre HELM aux VLM pour présenter l'Évaluation Holistique des Modèles Vision Langage (VHELM). VHELM agrège divers ensembles de données pour couvrir un ou plusieurs des 9 aspects : perception visuelle, connaissance, raisonnement, biais, équité, multilinguisme, robustesse, toxicité et sécurité. Ce faisant, nous produisons une vue complète et multidimensionnelle des capacités des VLM à travers ces facteurs importants. De plus, nous standardisons les paramètres d'inférence standard, les méthodes de sollicitation et les métriques d'évaluation pour permettre des comparaisons équitables entre les modèles. Notre cadre est conçu pour être léger et automatique afin que les exécutions d'évaluation soient économiques et rapides. Notre première exécution évalue 22 VLM sur 21 ensembles de données existants pour fournir un instantané holistique des modèles. Nous découvrons de nouvelles conclusions clés, telles que le fait que les modèles axés sur l'efficacité (par exemple, Claude 3 Haiku ou Gemini 1.5 Flash) se comportent significativement moins bien que leurs modèles complets (par exemple, Claude 3 Opus ou Gemini 1.5 Pro) sur le benchmark du biais mais pas lorsqu'ils sont évalués sur les autres aspects. Pour la transparence, nous publions les générations de modèles bruts et les résultats complets sur notre site web (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM est destiné à être un benchmark évolutif, et nous espérons continuer à ajouter de nouveaux ensembles de données et modèles au fil du temps.
English
Current benchmarks for assessing vision-language models (VLMs) often focus on their perception or problem-solving capabilities and neglect other critical aspects such as fairness, multilinguality, or toxicity. Furthermore, they differ in their evaluation procedures and the scope of the evaluation, making it difficult to compare models. To address these issues, we extend the HELM framework to VLMs to present the Holistic Evaluation of Vision Language Models (VHELM). VHELM aggregates various datasets to cover one or more of the 9 aspects: visual perception, knowledge, reasoning, bias, fairness, multilinguality, robustness, toxicity, and safety. In doing so, we produce a comprehensive, multi-dimensional view of the capabilities of the VLMs across these important factors. In addition, we standardize the standard inference parameters, methods of prompting, and evaluation metrics to enable fair comparisons across models. Our framework is designed to be lightweight and automatic so that evaluation runs are cheap and fast. Our initial run evaluates 22 VLMs on 21 existing datasets to provide a holistic snapshot of the models. We uncover new key findings, such as the fact that efficiency-focused models (e.g., Claude 3 Haiku or Gemini 1.5 Flash) perform significantly worse than their full models (e.g., Claude 3 Opus or Gemini 1.5 Pro) on the bias benchmark but not when evaluated on the other aspects. For transparency, we release the raw model generations and complete results on our website (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is intended to be a living benchmark, and we hope to continue adding new datasets and models over time.

Summary

AI-Generated Summary

PDF32November 16, 2024