HEMM: Ganzheitliche Bewertung von Multimodalen Grundlagenmodellen
HEMM: Holistic Evaluation of Multimodal Foundation Models
July 3, 2024
Autoren: Paul Pu Liang, Akshay Goindani, Talha Chafekar, Leena Mathur, Haofei Yu, Ruslan Salakhutdinov, Louis-Philippe Morency
cs.AI
Zusammenfassung
Multimodale Grundlagenmodelle, die Text zusammen mit Bildern, Videos, Audio und anderen sensorischen Modalitäten ganzheitlich verarbeiten können, werden zunehmend in einer Vielzahl von realen Anwendungen eingesetzt. Es ist jedoch herausfordernd, den Fortschritt bei multimodalen Grundlagenmodellen zu charakterisieren und zu untersuchen, angesichts der Vielzahl möglicher Modellierungsentscheidungen, Aufgaben und Domänen. In diesem Papier stellen wir die Holistic Evaluation of Multimodal Models (HEMM) vor, um die Fähigkeiten von multimodalen Grundlagenmodellen systematisch über einen Satz von 3 Dimensionen zu bewerten: Grundfertigkeiten, Informationsfluss und Anwendungsfälle in der realen Welt. Grundlegende multimodale Fertigkeiten sind interne Fähigkeiten, die erforderlich sind, um Probleme zu lösen, wie das Erlernen von Interaktionen über Modalitäten hinweg, fein abgestimmte Ausrichtung, mehrstufiges Denken und die Fähigkeit, externes Wissen zu verarbeiten. Der Informationsfluss untersucht, wie sich multimodaler Inhalt während einer Aufgabe durch Abfragen, Übersetzung, Bearbeitung und Fusion verändert. Anwendungsfälle umfassen domänenspezifische Herausforderungen, die in realen multimedialen, affektiven Berechnungen, Naturwissenschaften, Gesundheitswesen und Anwendungen der Mensch-Computer-Interaktion eingeführt werden. Durch umfassende Experimente über die 30 Aufgaben in HEMM identifizieren wir (1) Schlüsseldatensatzdimensionen (z. B. Grundfertigkeiten, Informationsflüsse und Anwendungsfälle), die heute Modellen Herausforderungen stellen, und (2) destillieren Leistungstrends hinsichtlich der Einflüsse verschiedener Modellierungsdimensionen (z. B. Skalierung, Vortrainingsdaten, multimodale Ausrichtung, Vortraining und Anpassung von Anweisungen) auf die Leistung. Unsere Schlussfolgerungen zu herausfordernden multimodalen Interaktionen, Anwendungsfällen und Aufgaben, die Denken und externes Wissen erfordern, den Vorteilen von Daten- und Modellskalierung sowie den Auswirkungen der Anpassung von Anweisungen liefern handlungsrelevante Erkenntnisse für zukünftige Arbeiten an multimodalen Grundlagenmodellen.
English
Multimodal foundation models that can holistically process text alongside
images, video, audio, and other sensory modalities are increasingly used in a
variety of real-world applications. However, it is challenging to characterize
and study progress in multimodal foundation models, given the range of possible
modeling decisions, tasks, and domains. In this paper, we introduce Holistic
Evaluation of Multimodal Models (HEMM) to systematically evaluate the
capabilities of multimodal foundation models across a set of 3 dimensions:
basic skills, information flow, and real-world use cases. Basic multimodal
skills are internal abilities required to solve problems, such as learning
interactions across modalities, fine-grained alignment, multi-step reasoning,
and the ability to handle external knowledge. Information flow studies how
multimodal content changes during a task through querying, translation,
editing, and fusion. Use cases span domain-specific challenges introduced in
real-world multimedia, affective computing, natural sciences, healthcare, and
human-computer interaction applications. Through comprehensive experiments
across the 30 tasks in HEMM, we (1) identify key dataset dimensions (e.g.,
basic skills, information flows, and use cases) that pose challenges to today's
models, and (2) distill performance trends regarding how different modeling
dimensions (e.g., scale, pre-training data, multimodal alignment, pre-training,
and instruction tuning objectives) influence performance. Our conclusions
regarding challenging multimodal interactions, use cases, and tasks requiring
reasoning and external knowledge, the benefits of data and model scale, and the
impacts of instruction tuning yield actionable insights for future work in
multimodal foundation models.Summary
AI-Generated Summary