HEMM: Голистическая оценка фундаментальных мультимодальных моделей
HEMM: Holistic Evaluation of Multimodal Foundation Models
July 3, 2024
Авторы: Paul Pu Liang, Akshay Goindani, Talha Chafekar, Leena Mathur, Haofei Yu, Ruslan Salakhutdinov, Louis-Philippe Morency
cs.AI
Аннотация
Модельные основы мультимодальности, способные всесторонне обрабатывать текст наряду с изображениями, видео, аудио и другими сенсорными модальностями, все чаще используются в различных прикладных областях. Однако характеризовать и изучать прогресс в модельных основах мультимодальности представляется сложной задачей из-за разнообразия возможных моделирующих решений, задач и областей. В данной статье мы представляем методику Голистической Оценки Мультимодальных Моделей (HEMM) для систематической оценки возможностей модельных основ мультимодальности по набору из 3 измерений: базовые навыки, поток информации и использование в реальных сценариях. Базовые мультимодальные навыки – это внутренние способности, необходимые для решения проблем, такие как изучение взаимодействий между модальностями, точная синхронизация, многоэтапное рассуждение и способность работать с внешними знаниями. Поток информации изучает, как изменяется мультимодальное содержание во время задачи через запросы, перевод, редактирование и слияние. Сценарии использования охватывают специфические для области вызовы, встречаемые в мультимедийных, аффективных вычислениях, естественных науках, здравоохранении и приложениях взаимодействия человека с компьютером. Через комплексные эксперименты по 30 задачам в HEMM мы (1) выявляем ключевые измерения данных (например, базовые навыки, поток информации и сценарии использования), представляющие вызовы для современных моделей, и (2) обобщаем тенденции производительности относительно влияния различных моделирующих измерений (например, масштаб, данные предварительного обучения, мультимодальная синхронизация, предварительное обучение и настройка целей инструктирования) на производительность. Наши выводы относительно сложных мультимодальных взаимодействий, сценариев использования и задач, требующих рассуждений и внешних знаний, преимуществ масштаба данных и модели, а также влияния настройки инструкций предоставляют ценные практические идеи для будущих работ в модельных основах мультимодальности.
English
Multimodal foundation models that can holistically process text alongside
images, video, audio, and other sensory modalities are increasingly used in a
variety of real-world applications. However, it is challenging to characterize
and study progress in multimodal foundation models, given the range of possible
modeling decisions, tasks, and domains. In this paper, we introduce Holistic
Evaluation of Multimodal Models (HEMM) to systematically evaluate the
capabilities of multimodal foundation models across a set of 3 dimensions:
basic skills, information flow, and real-world use cases. Basic multimodal
skills are internal abilities required to solve problems, such as learning
interactions across modalities, fine-grained alignment, multi-step reasoning,
and the ability to handle external knowledge. Information flow studies how
multimodal content changes during a task through querying, translation,
editing, and fusion. Use cases span domain-specific challenges introduced in
real-world multimedia, affective computing, natural sciences, healthcare, and
human-computer interaction applications. Through comprehensive experiments
across the 30 tasks in HEMM, we (1) identify key dataset dimensions (e.g.,
basic skills, information flows, and use cases) that pose challenges to today's
models, and (2) distill performance trends regarding how different modeling
dimensions (e.g., scale, pre-training data, multimodal alignment, pre-training,
and instruction tuning objectives) influence performance. Our conclusions
regarding challenging multimodal interactions, use cases, and tasks requiring
reasoning and external knowledge, the benefits of data and model scale, and the
impacts of instruction tuning yield actionable insights for future work in
multimodal foundation models.Summary
AI-Generated Summary