ChatPaper.aiChatPaper

VHELM: Uma Avaliação Holística de Modelos de Visão e Linguagem

VHELM: A Holistic Evaluation of Vision Language Models

October 9, 2024
Autores: Tony Lee, Haoqin Tu, Chi Heem Wong, Wenhao Zheng, Yiyang Zhou, Yifan Mai, Josselin Somerville Roberts, Michihiro Yasunaga, Huaxiu Yao, Cihang Xie, Percy Liang
cs.AI

Resumo

Os benchmarks atuais para avaliar modelos de visão e linguagem (VLMs) frequentemente se concentram em suas capacidades de percepção ou resolução de problemas e negligenciam outros aspectos críticos, como equidade, multilinguismo ou toxicidade. Além disso, diferem em seus procedimentos de avaliação e no escopo da avaliação, tornando difícil a comparação entre os modelos. Para lidar com essas questões, estendemos o framework HELM para VLMs a fim de apresentar a Avaliação Holística de Modelos de Visão e Linguagem (VHELM). O VHELM agrega vários conjuntos de dados para abranger um ou mais dos 9 aspectos: percepção visual, conhecimento, raciocínio, viés, equidade, multilinguismo, robustez, toxicidade e segurança. Ao fazer isso, produzimos uma visão abrangente e multidimensional das capacidades dos VLMs em relação a esses fatores importantes. Além disso, padronizamos os parâmetros de inferência padrão, métodos de estímulo e métricas de avaliação para possibilitar comparações justas entre os modelos. Nosso framework é projetado para ser leve e automático, de modo que as execuções de avaliação sejam baratas e rápidas. Nossa execução inicial avalia 22 VLMs em 21 conjuntos de dados existentes para fornecer uma visão holística dos modelos. Descobrimos novas descobertas importantes, como o fato de que modelos focados na eficiência (por exemplo, Claude 3 Haiku ou Gemini 1.5 Flash) têm um desempenho significativamente pior do que seus modelos completos (por exemplo, Claude 3 Opus ou Gemini 1.5 Pro) no benchmark de viés, mas não ao serem avaliados em outros aspectos. Para transparência, disponibilizamos as gerações de modelos brutos e resultados completos em nosso site (https://crfm.stanford.edu/helm/vhelm/v2.0.1). O VHELM é destinado a ser um benchmark em constante evolução, e esperamos continuar adicionando novos conjuntos de dados e modelos ao longo do tempo.
English
Current benchmarks for assessing vision-language models (VLMs) often focus on their perception or problem-solving capabilities and neglect other critical aspects such as fairness, multilinguality, or toxicity. Furthermore, they differ in their evaluation procedures and the scope of the evaluation, making it difficult to compare models. To address these issues, we extend the HELM framework to VLMs to present the Holistic Evaluation of Vision Language Models (VHELM). VHELM aggregates various datasets to cover one or more of the 9 aspects: visual perception, knowledge, reasoning, bias, fairness, multilinguality, robustness, toxicity, and safety. In doing so, we produce a comprehensive, multi-dimensional view of the capabilities of the VLMs across these important factors. In addition, we standardize the standard inference parameters, methods of prompting, and evaluation metrics to enable fair comparisons across models. Our framework is designed to be lightweight and automatic so that evaluation runs are cheap and fast. Our initial run evaluates 22 VLMs on 21 existing datasets to provide a holistic snapshot of the models. We uncover new key findings, such as the fact that efficiency-focused models (e.g., Claude 3 Haiku or Gemini 1.5 Flash) perform significantly worse than their full models (e.g., Claude 3 Opus or Gemini 1.5 Pro) on the bias benchmark but not when evaluated on the other aspects. For transparency, we release the raw model generations and complete results on our website (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is intended to be a living benchmark, and we hope to continue adding new datasets and models over time.

Summary

AI-Generated Summary

PDF32November 16, 2024