Les grands modèles de langage peuvent-ils contribuer à l'analyse multimodale du langage ? MMLA : Un benchmark complet
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark
April 23, 2025
Auteurs: Hanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Haige Zhu, Jie Zhou, Jinchao Zhang
cs.AI
Résumé
L'analyse multimodale du langage est un domaine en pleine évolution qui exploite plusieurs modalités pour améliorer la compréhension de la sémantique de haut niveau sous-jacente aux énoncés conversationnels humains. Malgré son importance, peu de recherches ont exploré la capacité des modèles de langage multimodaux de grande taille (MLLMs) à appréhender la sémantique au niveau cognitif. Dans cet article, nous présentons MMLA, un benchmark complet spécialement conçu pour combler cette lacune. MMLA comprend plus de 61 000 énoncés multimodaux issus de scénarios à la fois mis en scène et réels, couvrant six dimensions clés de la sémantique multimodale : l'intention, l'émotion, l'acte de dialogue, le sentiment, le style d'expression et le comportement communicationnel. Nous évaluons huit branches principales de LLMs et MLLMs en utilisant trois méthodes : l'inférence en zero-shot, le fine-tuning supervisé et le réglage par instruction. Des expériences approfondies révèlent que même les modèles fine-tunés n'atteignent qu'une précision d'environ 60 % à 70 %, mettant en lumière les limites des MLLMs actuels dans la compréhension du langage humain complexe. Nous pensons que MMLA servira de base solide pour explorer le potentiel des modèles de langage de grande taille dans l'analyse multimodale du langage et fournira des ressources précieuses pour faire progresser ce domaine. Les jeux de données et le code sont open-source à l'adresse https://github.com/thuiar/MMLA.
English
Multimodal language analysis is a rapidly evolving field that leverages
multiple modalities to enhance the understanding of high-level semantics
underlying human conversational utterances. Despite its significance, little
research has investigated the capability of multimodal large language models
(MLLMs) to comprehend cognitive-level semantics. In this paper, we introduce
MMLA, a comprehensive benchmark specifically designed to address this gap. MMLA
comprises over 61K multimodal utterances drawn from both staged and real-world
scenarios, covering six core dimensions of multimodal semantics: intent,
emotion, dialogue act, sentiment, speaking style, and communication behavior.
We evaluate eight mainstream branches of LLMs and MLLMs using three methods:
zero-shot inference, supervised fine-tuning, and instruction tuning. Extensive
experiments reveal that even fine-tuned models achieve only about 60%~70%
accuracy, underscoring the limitations of current MLLMs in understanding
complex human language. We believe that MMLA will serve as a solid foundation
for exploring the potential of large language models in multimodal language
analysis and provide valuable resources to advance this field. The datasets and
code are open-sourced at https://github.com/thuiar/MMLA.Summary
AI-Generated Summary