HEMM : Évaluation holistique des modèles de base multimodaux
HEMM: Holistic Evaluation of Multimodal Foundation Models
July 3, 2024
Auteurs: Paul Pu Liang, Akshay Goindani, Talha Chafekar, Leena Mathur, Haofei Yu, Ruslan Salakhutdinov, Louis-Philippe Morency
cs.AI
Résumé
Les modèles de fondation multimodaux capables de traiter de manière holistique le texte aux côtés des images, des vidéos, de l'audio et d'autres modalités sensorielles sont de plus en plus utilisés dans une variété d'applications réelles. Cependant, il est difficile de caractériser et d'étudier les progrès dans les modèles de fondation multimodaux, étant donné la diversité des décisions de modélisation, des tâches et des domaines possibles. Dans cet article, nous introduisons l'Évaluation Holistique des Modèles Multimodaux (HEMM) pour évaluer systématiquement les capacités des modèles de fondation multimodaux selon trois dimensions : les compétences de base, le flux d'information et les cas d'utilisation réels. Les compétences multimodales de base sont des capacités internes nécessaires pour résoudre des problèmes, telles que l'apprentissage des interactions entre modalités, l'alignement fin, le raisonnement en plusieurs étapes et la capacité à gérer des connaissances externes. Le flux d'information étudie comment le contenu multimodal évolue au cours d'une tâche à travers l'interrogation, la traduction, l'édition et la fusion. Les cas d'utilisation couvrent les défis spécifiques à des domaines introduits dans les applications multimédias, l'informatique affective, les sciences naturelles, la santé et l'interaction homme-machine. Grâce à des expériences approfondies sur les 30 tâches de HEMM, nous (1) identifions les dimensions clés des ensembles de données (par exemple, les compétences de base, les flux d'information et les cas d'utilisation) qui posent des défis aux modèles actuels, et (2) dégageons les tendances de performance concernant l'influence de différentes dimensions de modélisation (par exemple, l'échelle, les données de pré-entraînement, l'alignement multimodal, les objectifs de pré-entraînement et de réglage par instruction) sur les performances. Nos conclusions concernant les interactions multimodales complexes, les cas d'utilisation et les tâches nécessitant un raisonnement et des connaissances externes, les avantages de l'échelle des données et des modèles, ainsi que les impacts du réglage par instruction, fournissent des insights actionnables pour les travaux futurs sur les modèles de fondation multimodaux.
English
Multimodal foundation models that can holistically process text alongside
images, video, audio, and other sensory modalities are increasingly used in a
variety of real-world applications. However, it is challenging to characterize
and study progress in multimodal foundation models, given the range of possible
modeling decisions, tasks, and domains. In this paper, we introduce Holistic
Evaluation of Multimodal Models (HEMM) to systematically evaluate the
capabilities of multimodal foundation models across a set of 3 dimensions:
basic skills, information flow, and real-world use cases. Basic multimodal
skills are internal abilities required to solve problems, such as learning
interactions across modalities, fine-grained alignment, multi-step reasoning,
and the ability to handle external knowledge. Information flow studies how
multimodal content changes during a task through querying, translation,
editing, and fusion. Use cases span domain-specific challenges introduced in
real-world multimedia, affective computing, natural sciences, healthcare, and
human-computer interaction applications. Through comprehensive experiments
across the 30 tasks in HEMM, we (1) identify key dataset dimensions (e.g.,
basic skills, information flows, and use cases) that pose challenges to today's
models, and (2) distill performance trends regarding how different modeling
dimensions (e.g., scale, pre-training data, multimodal alignment, pre-training,
and instruction tuning objectives) influence performance. Our conclusions
regarding challenging multimodal interactions, use cases, and tasks requiring
reasoning and external knowledge, the benefits of data and model scale, and the
impacts of instruction tuning yield actionable insights for future work in
multimodal foundation models.Summary
AI-Generated Summary