HEMM: Avaliação Holística de Modelos Fundamentais Multimodais
HEMM: Holistic Evaluation of Multimodal Foundation Models
July 3, 2024
Autores: Paul Pu Liang, Akshay Goindani, Talha Chafekar, Leena Mathur, Haofei Yu, Ruslan Salakhutdinov, Louis-Philippe Morency
cs.AI
Resumo
Modelos de base multimodais que podem processar de forma holística texto juntamente com imagens, vídeo, áudio e outras modalidades sensoriais estão sendo cada vez mais utilizados em uma variedade de aplicações do mundo real. No entanto, é desafiador caracterizar e estudar o progresso em modelos de base multimodais, dada a gama de possíveis decisões de modelagem, tarefas e domínios. Neste artigo, introduzimos a Avaliação Holística de Modelos Multimodais (HEMM) para avaliar sistematicamente as capacidades de modelos de base multimodais em um conjunto de 3 dimensões: habilidades básicas, fluxo de informação e casos de uso do mundo real. As habilidades multimodais básicas são habilidades internas necessárias para resolver problemas, como aprender interações entre modalidades, alinhamento detalhado, raciocínio de vários passos e a capacidade de lidar com conhecimento externo. O fluxo de informação estuda como o conteúdo multimodal muda durante uma tarefa por meio de consultas, tradução, edição e fusão. Os casos de uso abrangem desafios específicos do domínio introduzidos em multimídia do mundo real, computação afetiva, ciências naturais, saúde e aplicações de interação humano-computador. Através de experimentos abrangentes nas 30 tarefas em HEMM, identificamos (1) dimensões-chave de conjuntos de dados (por exemplo, habilidades básicas, fluxos de informação e casos de uso) que representam desafios para os modelos atuais e (2) tendências de desempenho sobre como diferentes dimensões de modelagem (por exemplo, escala, dados de pré-treinamento, alinhamento multimodal, pré-treinamento e objetivos de ajuste de instrução) influenciam o desempenho. Nossas conclusões sobre interações multimodais desafiadoras, casos de uso e tarefas que requerem raciocínio e conhecimento externo, os benefícios da escala de dados e modelo, e os impactos do ajuste de instrução fornecem insights acionáveis para trabalhos futuros em modelos de base multimodais.
English
Multimodal foundation models that can holistically process text alongside
images, video, audio, and other sensory modalities are increasingly used in a
variety of real-world applications. However, it is challenging to characterize
and study progress in multimodal foundation models, given the range of possible
modeling decisions, tasks, and domains. In this paper, we introduce Holistic
Evaluation of Multimodal Models (HEMM) to systematically evaluate the
capabilities of multimodal foundation models across a set of 3 dimensions:
basic skills, information flow, and real-world use cases. Basic multimodal
skills are internal abilities required to solve problems, such as learning
interactions across modalities, fine-grained alignment, multi-step reasoning,
and the ability to handle external knowledge. Information flow studies how
multimodal content changes during a task through querying, translation,
editing, and fusion. Use cases span domain-specific challenges introduced in
real-world multimedia, affective computing, natural sciences, healthcare, and
human-computer interaction applications. Through comprehensive experiments
across the 30 tasks in HEMM, we (1) identify key dataset dimensions (e.g.,
basic skills, information flows, and use cases) that pose challenges to today's
models, and (2) distill performance trends regarding how different modeling
dimensions (e.g., scale, pre-training data, multimodal alignment, pre-training,
and instruction tuning objectives) influence performance. Our conclusions
regarding challenging multimodal interactions, use cases, and tasks requiring
reasoning and external knowledge, the benefits of data and model scale, and the
impacts of instruction tuning yield actionable insights for future work in
multimodal foundation models.