VHELM: Een Holistische Evaluatie van Visie Taalmodellen
VHELM: A Holistic Evaluation of Vision Language Models
October 9, 2024
Auteurs: Tony Lee, Haoqin Tu, Chi Heem Wong, Wenhao Zheng, Yiyang Zhou, Yifan Mai, Josselin Somerville Roberts, Michihiro Yasunaga, Huaxiu Yao, Cihang Xie, Percy Liang
cs.AI
Samenvatting
Huidige benchmarks voor het beoordelen van visie-taalmodellen (VLM's) richten zich vaak op hun perceptie- of probleemoplossend vermogen en verwaarlozen andere kritieke aspecten zoals eerlijkheid, meertaligheid of toxiciteit. Bovendien verschillen ze in hun evaluatieprocedures en de reikwijdte van de evaluatie, waardoor het moeilijk is om modellen te vergelijken. Om deze problemen aan te pakken, breiden we het HELM-framework uit naar VLM's om de Holistische Evaluatie van Visie-Taalmodellen (VHELM) te presenteren. VHELM bundelt verschillende datasets om een of meer van de 9 aspecten te bestrijken: visuele perceptie, kennis, redenering, vooringenomenheid, eerlijkheid, meertaligheid, robuustheid, toxiciteit en veiligheid. Op deze manier bieden we een uitgebreid, multidimensionaal beeld van de mogelijkheden van de VLM's over deze belangrijke factoren. Bovendien standaardiseren we de standaard inferentieparameters, methoden van aanmoediging en evaluatiemetrics om eerlijke vergelijkingen tussen modellen mogelijk te maken. Ons framework is ontworpen om lichtgewicht en automatisch te zijn, zodat evaluatieruns goedkoop en snel zijn. Onze eerste run evalueert 22 VLM's op 21 bestaande datasets om een holistische momentopname van de modellen te bieden. We ontdekken nieuwe belangrijke bevindingen, zoals het feit dat efficiëntiegerichte modellen (bijv. Claude 3 Haiku of Gemini 1.5 Flash) aanzienlijk slechter presteren dan hun volledige modellen (bijv. Claude 3 Opus of Gemini 1.5 Pro) op de vooringenomenheidsbenchmark, maar niet wanneer ze worden geëvalueerd op de andere aspecten. Voor transparantie publiceren we de ruwe modelgeneraties en volledige resultaten op onze website (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is bedoeld als een levende benchmark en we hopen in de loop van de tijd nieuwe datasets en modellen toe te blijven voegen.
English
Current benchmarks for assessing vision-language models (VLMs) often focus on
their perception or problem-solving capabilities and neglect other critical
aspects such as fairness, multilinguality, or toxicity. Furthermore, they
differ in their evaluation procedures and the scope of the evaluation, making
it difficult to compare models. To address these issues, we extend the HELM
framework to VLMs to present the Holistic Evaluation of Vision Language Models
(VHELM). VHELM aggregates various datasets to cover one or more of the 9
aspects: visual perception, knowledge, reasoning, bias, fairness,
multilinguality, robustness, toxicity, and safety. In doing so, we produce a
comprehensive, multi-dimensional view of the capabilities of the VLMs across
these important factors. In addition, we standardize the standard inference
parameters, methods of prompting, and evaluation metrics to enable fair
comparisons across models. Our framework is designed to be lightweight and
automatic so that evaluation runs are cheap and fast. Our initial run evaluates
22 VLMs on 21 existing datasets to provide a holistic snapshot of the models.
We uncover new key findings, such as the fact that efficiency-focused models
(e.g., Claude 3 Haiku or Gemini 1.5 Flash) perform significantly worse than
their full models (e.g., Claude 3 Opus or Gemini 1.5 Pro) on the bias benchmark
but not when evaluated on the other aspects. For transparency, we release the
raw model generations and complete results on our website
(https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is intended to be a living
benchmark, and we hope to continue adding new datasets and models over time.Summary
AI-Generated Summary