VHELM: ビジョン言語モデルの包括的評価
VHELM: A Holistic Evaluation of Vision Language Models
October 9, 2024
著者: Tony Lee, Haoqin Tu, Chi Heem Wong, Wenhao Zheng, Yiyang Zhou, Yifan Mai, Josselin Somerville Roberts, Michihiro Yasunaga, Huaxiu Yao, Cihang Xie, Percy Liang
cs.AI
要旨
ビジョン言語モデル(VLM)を評価するための現行のベンチマークは、しばしばその知覚や問題解決能力に焦点を当て、公平性、多言語性、有害性などの他の重要な側面を無視しています。さらに、評価手順や評価の範囲が異なるため、モデルを比較することが困難です。これらの問題に対処するために、私たちはHELMフレームワークをVLMに拡張し、ビジョン言語モデルのホリスティック評価(VHELM)を提案します。VHELMは、視覚認識、知識、推論、偏り、公平性、多言語性、堅牢性、有害性、安全性の9つの側面のいずれかをカバーするためにさまざまなデータセットを集約します。これにより、これらの重要な要素にわたるVLMの能力の包括的で多次元的な視点を提供します。さらに、公平な比較を可能にするために、標準推論パラメータ、プロンプト方法、評価メトリクスを標準化します。私たちのフレームワークは軽量で自動化されており、評価ランは安価で迅速です。初回ランでは、22のVLMを21の既存データセットで評価し、モデルの包括的なスナップショットを提供します。Claude 3 HaikuやGemini 1.5 Flashなどの効率重視のモデルが、他の側面で評価される際には問題がないが、バイアスのベンチマークでは完全なモデル(Claude 3 OpusやGemini 1.5 Proなど)よりも著しく性能が低いという新たな重要な発見を明らかにしました。透明性のために、私たちは生のモデル生成物と完全な結果をウェブサイト(https://crfm.stanford.edu/helm/vhelm/v2.0.1)で公開しています。VHELMは生きたベンチマークであり、将来的に新しいデータセットやモデルを追加していくことを期待しています。
English
Current benchmarks for assessing vision-language models (VLMs) often focus on
their perception or problem-solving capabilities and neglect other critical
aspects such as fairness, multilinguality, or toxicity. Furthermore, they
differ in their evaluation procedures and the scope of the evaluation, making
it difficult to compare models. To address these issues, we extend the HELM
framework to VLMs to present the Holistic Evaluation of Vision Language Models
(VHELM). VHELM aggregates various datasets to cover one or more of the 9
aspects: visual perception, knowledge, reasoning, bias, fairness,
multilinguality, robustness, toxicity, and safety. In doing so, we produce a
comprehensive, multi-dimensional view of the capabilities of the VLMs across
these important factors. In addition, we standardize the standard inference
parameters, methods of prompting, and evaluation metrics to enable fair
comparisons across models. Our framework is designed to be lightweight and
automatic so that evaluation runs are cheap and fast. Our initial run evaluates
22 VLMs on 21 existing datasets to provide a holistic snapshot of the models.
We uncover new key findings, such as the fact that efficiency-focused models
(e.g., Claude 3 Haiku or Gemini 1.5 Flash) perform significantly worse than
their full models (e.g., Claude 3 Opus or Gemini 1.5 Pro) on the bias benchmark
but not when evaluated on the other aspects. For transparency, we release the
raw model generations and complete results on our website
(https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is intended to be a living
benchmark, and we hope to continue adding new datasets and models over time.Summary
AI-Generated Summary