HEMM: Holistische Evaluatie van Multimodale Fundamentmodellen
HEMM: Holistic Evaluation of Multimodal Foundation Models
July 3, 2024
Auteurs: Paul Pu Liang, Akshay Goindani, Talha Chafekar, Leena Mathur, Haofei Yu, Ruslan Salakhutdinov, Louis-Philippe Morency
cs.AI
Samenvatting
Multimodale foundation models die tekst naast afbeeldingen, video, audio en andere sensorische modaliteiten holistisch kunnen verwerken, worden steeds vaker gebruikt in diverse real-world toepassingen. Het is echter uitdagend om vooruitgang in multimodale foundation models te karakteriseren en te bestuderen, gezien het brede scala aan mogelijke modelbeslissingen, taken en domeinen. In dit artikel introduceren we Holistic Evaluation of Multimodal Models (HEMM) om de capaciteiten van multimodale foundation models systematisch te evalueren aan de hand van drie dimensies: basisvaardigheden, informatieflow en real-world use cases. Basisvaardigheden voor multimodaliteit zijn interne vaardigheden die nodig zijn om problemen op te lossen, zoals het leren van interacties tussen modaliteiten, fijnmazige uitlijning, meerstaps redeneren en het vermogen om externe kennis te verwerken. Informatieflow onderzoekt hoe multimodale content verandert tijdens een taak door middel van querying, vertaling, bewerking en fusie. Use cases omvatten domeinspecifieke uitdagingen die worden geïntroduceerd in real-world multimedia, affectieve computing, natuurwetenschappen, gezondheidszorg en mens-computerinteractie toepassingen. Door middel van uitgebreide experimenten over de 30 taken in HEMM, (1) identificeren we belangrijke datasetdimensies (bijv. basisvaardigheden, informatieflows en use cases) die uitdagingen vormen voor de huidige modellen, en (2) destilleren we prestatie trends met betrekking tot hoe verschillende modeldimensies (bijv. schaal, pre-trainingsdata, multimodale uitlijning, pre-training en instructieafstemmingsdoelen) de prestaties beïnvloeden. Onze conclusies over uitdagende multimodale interacties, use cases en taken die redeneren en externe kennis vereisen, de voordelen van data- en modelschaal, en de impact van instructieafstemming leveren bruikbare inzichten op voor toekomstig werk in multimodale foundation models.
English
Multimodal foundation models that can holistically process text alongside
images, video, audio, and other sensory modalities are increasingly used in a
variety of real-world applications. However, it is challenging to characterize
and study progress in multimodal foundation models, given the range of possible
modeling decisions, tasks, and domains. In this paper, we introduce Holistic
Evaluation of Multimodal Models (HEMM) to systematically evaluate the
capabilities of multimodal foundation models across a set of 3 dimensions:
basic skills, information flow, and real-world use cases. Basic multimodal
skills are internal abilities required to solve problems, such as learning
interactions across modalities, fine-grained alignment, multi-step reasoning,
and the ability to handle external knowledge. Information flow studies how
multimodal content changes during a task through querying, translation,
editing, and fusion. Use cases span domain-specific challenges introduced in
real-world multimedia, affective computing, natural sciences, healthcare, and
human-computer interaction applications. Through comprehensive experiments
across the 30 tasks in HEMM, we (1) identify key dataset dimensions (e.g.,
basic skills, information flows, and use cases) that pose challenges to today's
models, and (2) distill performance trends regarding how different modeling
dimensions (e.g., scale, pre-training data, multimodal alignment, pre-training,
and instruction tuning objectives) influence performance. Our conclusions
regarding challenging multimodal interactions, use cases, and tasks requiring
reasoning and external knowledge, the benefits of data and model scale, and the
impacts of instruction tuning yield actionable insights for future work in
multimodal foundation models.