VHELM: Комплексная оценка моделей видео-языкового взаимодействия
VHELM: A Holistic Evaluation of Vision Language Models
October 9, 2024
Авторы: Tony Lee, Haoqin Tu, Chi Heem Wong, Wenhao Zheng, Yiyang Zhou, Yifan Mai, Josselin Somerville Roberts, Michihiro Yasunaga, Huaxiu Yao, Cihang Xie, Percy Liang
cs.AI
Аннотация
Текущие стандарты для оценки моделей видео-языкового взаимодействия (VLM) часто сосредотачиваются на их способностях в восприятии или решении проблем и упускают из виду другие критические аспекты, такие как справедливость, мультиязычность или токсичность. Более того, они различаются в процедурах оценки и объеме оценки, что затрудняет сравнение моделей. Для решения этих проблем мы расширяем рамки HELM на модели видео-языкового взаимодействия для представления Голистической Оценки Моделей Видео-Языкового Взаимодействия (VHELM). VHELM объединяет различные наборы данных для охвата одного или нескольких из 9 аспектов: визуальное восприятие, знание, рассуждения, предвзятость, справедливость, мультиязычность, устойчивость, токсичность и безопасность. Таким образом, мы представляем всестороннее, многомерное представление о способностях моделей VLM по этим важным факторам. Кроме того, мы стандартизируем параметры стандартного вывода, методы подсказок и метрики оценки для обеспечения справедливых сравнений между моделями. Наша рамка разработана для того, чтобы быть легкой и автоматической, так чтобы оценочные запуски были дешевыми и быстрыми. Наш первоначальный запуск оценивает 22 модели VLM на 21 существующих наборах данных для предоставления всестороннего обзора моделей. Мы выявляем новые ключевые результаты, такие как то, что модели, сосредоточенные на эффективности (например, Claude 3 Haiku или Gemini 1.5 Flash), значительно хуже справляются на бенчмарке предвзятости по сравнению со своими полными моделями (например, Claude 3 Opus или Gemini 1.5 Pro), но не при оценке по другим аспектам. Для прозрачности мы публикуем сырые генерации моделей и полные результаты на нашем веб-сайте (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM призван быть живым стандартом и мы надеемся продолжать добавлять новые наборы данных и модели со временем.
English
Current benchmarks for assessing vision-language models (VLMs) often focus on
their perception or problem-solving capabilities and neglect other critical
aspects such as fairness, multilinguality, or toxicity. Furthermore, they
differ in their evaluation procedures and the scope of the evaluation, making
it difficult to compare models. To address these issues, we extend the HELM
framework to VLMs to present the Holistic Evaluation of Vision Language Models
(VHELM). VHELM aggregates various datasets to cover one or more of the 9
aspects: visual perception, knowledge, reasoning, bias, fairness,
multilinguality, robustness, toxicity, and safety. In doing so, we produce a
comprehensive, multi-dimensional view of the capabilities of the VLMs across
these important factors. In addition, we standardize the standard inference
parameters, methods of prompting, and evaluation metrics to enable fair
comparisons across models. Our framework is designed to be lightweight and
automatic so that evaluation runs are cheap and fast. Our initial run evaluates
22 VLMs on 21 existing datasets to provide a holistic snapshot of the models.
We uncover new key findings, such as the fact that efficiency-focused models
(e.g., Claude 3 Haiku or Gemini 1.5 Flash) perform significantly worse than
their full models (e.g., Claude 3 Opus or Gemini 1.5 Pro) on the bias benchmark
but not when evaluated on the other aspects. For transparency, we release the
raw model generations and complete results on our website
(https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is intended to be a living
benchmark, and we hope to continue adding new datasets and models over time.Summary
AI-Generated Summary