ChatPaper.aiChatPaper

VHELM: Una Evaluación Holística de Modelos de Visión y Lenguaje

VHELM: A Holistic Evaluation of Vision Language Models

October 9, 2024
Autores: Tony Lee, Haoqin Tu, Chi Heem Wong, Wenhao Zheng, Yiyang Zhou, Yifan Mai, Josselin Somerville Roberts, Michihiro Yasunaga, Huaxiu Yao, Cihang Xie, Percy Liang
cs.AI

Resumen

Los benchmarks actuales para evaluar modelos de visión y lenguaje (VLMs) a menudo se centran en sus capacidades de percepción o resolución de problemas y descuidan otros aspectos críticos como la equidad, la multilingüidad o la toxicidad. Además, difieren en sus procedimientos de evaluación y el alcance de la evaluación, lo que dificulta comparar los modelos. Para abordar estos problemas, ampliamos el marco HELM a los VLMs para presentar la Evaluación Holística de Modelos de Visión y Lenguaje (VHELM). VHELM agrega varios conjuntos de datos para cubrir uno o más de los 9 aspectos: percepción visual, conocimiento, razonamiento, sesgo, equidad, multilingüidad, robustez, toxicidad y seguridad. Al hacerlo, obtenemos una vista integral y multidimensional de las capacidades de los VLMs en estos factores importantes. Además, estandarizamos los parámetros de inferencia estándar, los métodos de estímulo y las métricas de evaluación para permitir comparaciones justas entre modelos. Nuestro marco está diseñado para ser ligero y automático, de modo que las ejecuciones de evaluación sean económicas y rápidas. Nuestra ejecución inicial evalúa 22 VLMs en 21 conjuntos de datos existentes para proporcionar una instantánea holística de los modelos. Descubrimos nuevos hallazgos clave, como el hecho de que los modelos centrados en la eficiencia (por ejemplo, Claude 3 Haiku o Gemini 1.5 Flash) tienen un rendimiento significativamente peor que sus modelos completos (por ejemplo, Claude 3 Opus o Gemini 1.5 Pro) en el benchmark de sesgo, pero no cuando se evalúan en los otros aspectos. Para mayor transparencia, publicamos las generaciones de modelos en bruto y los resultados completos en nuestro sitio web (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM tiene como objetivo ser un benchmark en evolución, y esperamos seguir añadiendo nuevos conjuntos de datos y modelos con el tiempo.
English
Current benchmarks for assessing vision-language models (VLMs) often focus on their perception or problem-solving capabilities and neglect other critical aspects such as fairness, multilinguality, or toxicity. Furthermore, they differ in their evaluation procedures and the scope of the evaluation, making it difficult to compare models. To address these issues, we extend the HELM framework to VLMs to present the Holistic Evaluation of Vision Language Models (VHELM). VHELM aggregates various datasets to cover one or more of the 9 aspects: visual perception, knowledge, reasoning, bias, fairness, multilinguality, robustness, toxicity, and safety. In doing so, we produce a comprehensive, multi-dimensional view of the capabilities of the VLMs across these important factors. In addition, we standardize the standard inference parameters, methods of prompting, and evaluation metrics to enable fair comparisons across models. Our framework is designed to be lightweight and automatic so that evaluation runs are cheap and fast. Our initial run evaluates 22 VLMs on 21 existing datasets to provide a holistic snapshot of the models. We uncover new key findings, such as the fact that efficiency-focused models (e.g., Claude 3 Haiku or Gemini 1.5 Flash) perform significantly worse than their full models (e.g., Claude 3 Opus or Gemini 1.5 Pro) on the bias benchmark but not when evaluated on the other aspects. For transparency, we release the raw model generations and complete results on our website (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is intended to be a living benchmark, and we hope to continue adding new datasets and models over time.

Summary

AI-Generated Summary

PDF32November 16, 2024