HEMM: Valutazione Olistica dei Modelli Fondamentali Multimodali
HEMM: Holistic Evaluation of Multimodal Foundation Models
July 3, 2024
Autori: Paul Pu Liang, Akshay Goindani, Talha Chafekar, Leena Mathur, Haofei Yu, Ruslan Salakhutdinov, Louis-Philippe Morency
cs.AI
Abstract
I modelli fondazionali multimodali in grado di elaborare in modo olistico il testo insieme a immagini, video, audio e altre modalità sensoriali sono sempre più utilizzati in una varietà di applicazioni del mondo reale. Tuttavia, è complesso caratterizzare e studiare i progressi nei modelli fondazionali multimodali, data la gamma di possibili decisioni di modellazione, compiti e domini. In questo articolo, introduciamo la Valutazione Olistica dei Modelli Multimodali (HEMM) per valutare sistematicamente le capacità dei modelli fondazionali multimodali attraverso un insieme di 3 dimensioni: abilità di base, flusso di informazioni e casi d'uso reali. Le abilità multimodali di base sono capacità interne necessarie per risolvere problemi, come l'apprendimento di interazioni tra modalità, l'allineamento fine, il ragionamento a più passaggi e la capacità di gestire conoscenze esterne. Il flusso di informazioni studia come il contenuto multimodale cambia durante un'attività attraverso interrogazioni, traduzioni, modifiche e fusione. I casi d'uso coprono sfide specifiche di dominio introdotte in applicazioni reali di multimedia, computazione affettiva, scienze naturali, assistenza sanitaria e interazione uomo-computer. Attraverso esperimenti completi sui 30 compiti in HEMM, (1) identifichiamo le dimensioni chiave dei dataset (ad esempio, abilità di base, flussi di informazioni e casi d'uso) che rappresentano sfide per i modelli attuali, e (2) distilliamo tendenze di prestazioni riguardo a come diverse dimensioni di modellazione (ad esempio, scala, dati di pre-addestramento, allineamento multimodale, pre-addestramento e obiettivi di ottimizzazione delle istruzioni) influenzano le prestazioni. Le nostre conclusioni riguardo alle interazioni multimodali complesse, ai casi d'uso e ai compiti che richiedono ragionamento e conoscenze esterne, ai benefici della scala dei dati e del modello, e agli impatti dell'ottimizzazione delle istruzioni forniscono spunti operativi per il futuro lavoro sui modelli fondazionali multimodali.
English
Multimodal foundation models that can holistically process text alongside
images, video, audio, and other sensory modalities are increasingly used in a
variety of real-world applications. However, it is challenging to characterize
and study progress in multimodal foundation models, given the range of possible
modeling decisions, tasks, and domains. In this paper, we introduce Holistic
Evaluation of Multimodal Models (HEMM) to systematically evaluate the
capabilities of multimodal foundation models across a set of 3 dimensions:
basic skills, information flow, and real-world use cases. Basic multimodal
skills are internal abilities required to solve problems, such as learning
interactions across modalities, fine-grained alignment, multi-step reasoning,
and the ability to handle external knowledge. Information flow studies how
multimodal content changes during a task through querying, translation,
editing, and fusion. Use cases span domain-specific challenges introduced in
real-world multimedia, affective computing, natural sciences, healthcare, and
human-computer interaction applications. Through comprehensive experiments
across the 30 tasks in HEMM, we (1) identify key dataset dimensions (e.g.,
basic skills, information flows, and use cases) that pose challenges to today's
models, and (2) distill performance trends regarding how different modeling
dimensions (e.g., scale, pre-training data, multimodal alignment, pre-training,
and instruction tuning objectives) influence performance. Our conclusions
regarding challenging multimodal interactions, use cases, and tasks requiring
reasoning and external knowledge, the benefits of data and model scale, and the
impacts of instruction tuning yield actionable insights for future work in
multimodal foundation models.