HEMM: Evaluación Holística de Modelos Fundamentales Multimodales
HEMM: Holistic Evaluation of Multimodal Foundation Models
July 3, 2024
Autores: Paul Pu Liang, Akshay Goindani, Talha Chafekar, Leena Mathur, Haofei Yu, Ruslan Salakhutdinov, Louis-Philippe Morency
cs.AI
Resumen
Los modelos de base multimodal que pueden procesar de manera holística texto junto con imágenes, video, audio y otras modalidades sensoriales se utilizan cada vez más en una variedad de aplicaciones del mundo real. Sin embargo, resulta desafiante caracterizar y estudiar el progreso en los modelos de base multimodal, dada la variedad de posibles decisiones de modelado, tareas y dominios. En este documento, presentamos la Evaluación Holística de Modelos Multimodales (EHMM) para evaluar sistemáticamente las capacidades de los modelos de base multimodal a través de un conjunto de 3 dimensiones: habilidades básicas, flujo de información y casos de uso del mundo real. Las habilidades multimodales básicas son las capacidades internas necesarias para resolver problemas, como el aprendizaje de interacciones entre modalidades, alineación detallada, razonamiento de múltiples pasos y la capacidad de manejar conocimiento externo. El flujo de información estudia cómo cambia el contenido multimodal durante una tarea a través de consultas, traducción, edición y fusión. Los casos de uso abarcan desafíos específicos de dominio introducidos en aplicaciones multimedia del mundo real, computación afectiva, ciencias naturales, atención médica e interacción humano-computadora. A través de experimentos exhaustivos en las 30 tareas en EHMM, (1) identificamos dimensiones clave de conjuntos de datos (por ejemplo, habilidades básicas, flujos de información y casos de uso) que plantean desafíos a los modelos actuales, y (2) destilamos tendencias de rendimiento con respecto a cómo diferentes dimensiones de modelado (por ejemplo, escala, datos de pre-entrenamiento, alineación multimodal, pre-entrenamiento y objetivos de ajuste de instrucciones) influyen en el rendimiento. Nuestras conclusiones sobre interacciones multimodales desafiantes, casos de uso y tareas que requieren razonamiento y conocimiento externo, los beneficios de la escala de datos y modelos, y los impactos del ajuste de instrucciones ofrecen ideas accionables para trabajos futuros en modelos de base multimodal.
English
Multimodal foundation models that can holistically process text alongside
images, video, audio, and other sensory modalities are increasingly used in a
variety of real-world applications. However, it is challenging to characterize
and study progress in multimodal foundation models, given the range of possible
modeling decisions, tasks, and domains. In this paper, we introduce Holistic
Evaluation of Multimodal Models (HEMM) to systematically evaluate the
capabilities of multimodal foundation models across a set of 3 dimensions:
basic skills, information flow, and real-world use cases. Basic multimodal
skills are internal abilities required to solve problems, such as learning
interactions across modalities, fine-grained alignment, multi-step reasoning,
and the ability to handle external knowledge. Information flow studies how
multimodal content changes during a task through querying, translation,
editing, and fusion. Use cases span domain-specific challenges introduced in
real-world multimedia, affective computing, natural sciences, healthcare, and
human-computer interaction applications. Through comprehensive experiments
across the 30 tasks in HEMM, we (1) identify key dataset dimensions (e.g.,
basic skills, information flows, and use cases) that pose challenges to today's
models, and (2) distill performance trends regarding how different modeling
dimensions (e.g., scale, pre-training data, multimodal alignment, pre-training,
and instruction tuning objectives) influence performance. Our conclusions
regarding challenging multimodal interactions, use cases, and tasks requiring
reasoning and external knowledge, the benefits of data and model scale, and the
impacts of instruction tuning yield actionable insights for future work in
multimodal foundation models.