VHELM: 시각 언어 모델의 종합적 평가
VHELM: A Holistic Evaluation of Vision Language Models
October 9, 2024
저자: Tony Lee, Haoqin Tu, Chi Heem Wong, Wenhao Zheng, Yiyang Zhou, Yifan Mai, Josselin Somerville Roberts, Michihiro Yasunaga, Huaxiu Yao, Cihang Xie, Percy Liang
cs.AI
초록
현재 시각-언어 모델(VLMs)을 평가하는 현재의 벤치마크는 종종 그들의 지각 또는 문제 해결 능력에 초점을 맞추고 공정성, 다국어성 또는 유해성과 같은 다른 중요한 측면을 간과합니다. 또한, 이러한 벤치마크들은 평가 절차와 평가 범위에서 차이가 있어 모델을 비교하기 어렵게 만듭니다. 이러한 문제를 해결하기 위해, 우리는 VLMs에 HELM 프레임워크를 확장하여 시각-언어 모델의 전체적인 평가(VHELM)를 제시합니다. VHELM은 시각적 지각, 지식, 추론, 편견, 공정성, 다국어성, 견고성, 유해성 및 안전성 중 하나 이상을 다루는 다양한 데이터셋을 종합합니다. 이를 통해 VLMs의 능력에 대한 종합적이고 다차원적인 시각을 제공합니다. 또한, 공정한 비교를 가능하게 하기 위해 표준 추론 매개변수, 프롬프팅 방법 및 평가 메트릭을 표준화합니다. 우리의 프레임워크는 가벼우면서도 자동화되어 있어 평가 실행이 저렴하고 빠릅니다. 초기 실행에서는 21개의 기존 데이터셋에서 22개의 VLMs를 평가하여 모델의 종합적인 스냅샷을 제공합니다. Claude 3 Haiku 또는 Gemini 1.5 Flash와 같은 효율성 중심 모델이 편견 벤치마크에서 완전한 모델인 Claude 3 Opus 또는 Gemini 1.5 Pro보다 유의미하게 성능이 떨어지는 것을 포함한 새로운 주요 결과를 발견했습니다. 투명성을 위해 웹사이트(https://crfm.stanford.edu/helm/vhelm/v2.0.1)에서 원시 모델 생성물과 완전한 결과를 공개합니다. VHELM은 지속적으로 새로운 데이터셋과 모델을 추가할 예정인 라이브 벤치마크로 의도되었습니다.
English
Current benchmarks for assessing vision-language models (VLMs) often focus on
their perception or problem-solving capabilities and neglect other critical
aspects such as fairness, multilinguality, or toxicity. Furthermore, they
differ in their evaluation procedures and the scope of the evaluation, making
it difficult to compare models. To address these issues, we extend the HELM
framework to VLMs to present the Holistic Evaluation of Vision Language Models
(VHELM). VHELM aggregates various datasets to cover one or more of the 9
aspects: visual perception, knowledge, reasoning, bias, fairness,
multilinguality, robustness, toxicity, and safety. In doing so, we produce a
comprehensive, multi-dimensional view of the capabilities of the VLMs across
these important factors. In addition, we standardize the standard inference
parameters, methods of prompting, and evaluation metrics to enable fair
comparisons across models. Our framework is designed to be lightweight and
automatic so that evaluation runs are cheap and fast. Our initial run evaluates
22 VLMs on 21 existing datasets to provide a holistic snapshot of the models.
We uncover new key findings, such as the fact that efficiency-focused models
(e.g., Claude 3 Haiku or Gemini 1.5 Flash) perform significantly worse than
their full models (e.g., Claude 3 Opus or Gemini 1.5 Pro) on the bias benchmark
but not when evaluated on the other aspects. For transparency, we release the
raw model generations and complete results on our website
(https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is intended to be a living
benchmark, and we hope to continue adding new datasets and models over time.Summary
AI-Generated Summary