Могут ли крупные языковые модели помочь в мультимодальном анализе языка? MMLA: Всеобъемлющий эталонный тест
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark
April 23, 2025
Авторы: Hanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Haige Zhu, Jie Zhou, Jinchao Zhang
cs.AI
Аннотация
Мультимодальный анализ языка — это быстро развивающаяся область, которая использует несколько модальностей для улучшения понимания высокоуровневой семантики, лежащей в основе человеческих разговорных высказываний. Несмотря на её важность, мало исследований было посвящено изучению способности мультимодальных больших языковых моделей (MLLM) к пониманию семантики на когнитивном уровне. В данной статье мы представляем MMLA, комплексный бенчмарк, специально разработанный для устранения этого пробела. MMLA включает более 61 тыс. мультимодальных высказываний, взятых как из постановочных, так и из реальных сценариев, охватывая шесть ключевых аспектов мультимодальной семантики: намерение, эмоции, речевой акт, настроение, стиль речи и коммуникативное поведение. Мы оцениваем восемь основных ветвей языковых моделей (LLM) и MLLM с использованием трёх методов: инференции с нулевым обучением, контролируемого тонкого настройки и настройки с инструкциями. Обширные эксперименты показывают, что даже тонко настроенные модели достигают точности лишь около 60–70%, что подчеркивает ограничения современных MLLM в понимании сложного человеческого языка. Мы считаем, что MMLA послужит прочной основой для изучения потенциала больших языковых моделей в мультимодальном анализе языка и предоставит ценные ресурсы для продвижения этой области. Наборы данных и код доступны по адресу https://github.com/thuiar/MMLA.
English
Multimodal language analysis is a rapidly evolving field that leverages
multiple modalities to enhance the understanding of high-level semantics
underlying human conversational utterances. Despite its significance, little
research has investigated the capability of multimodal large language models
(MLLMs) to comprehend cognitive-level semantics. In this paper, we introduce
MMLA, a comprehensive benchmark specifically designed to address this gap. MMLA
comprises over 61K multimodal utterances drawn from both staged and real-world
scenarios, covering six core dimensions of multimodal semantics: intent,
emotion, dialogue act, sentiment, speaking style, and communication behavior.
We evaluate eight mainstream branches of LLMs and MLLMs using three methods:
zero-shot inference, supervised fine-tuning, and instruction tuning. Extensive
experiments reveal that even fine-tuned models achieve only about 60%~70%
accuracy, underscoring the limitations of current MLLMs in understanding
complex human language. We believe that MMLA will serve as a solid foundation
for exploring the potential of large language models in multimodal language
analysis and provide valuable resources to advance this field. The datasets and
code are open-sourced at https://github.com/thuiar/MMLA.Summary
AI-Generated Summary