I grandi modelli linguistici possono contribuire all'analisi del linguaggio multimodale? MMLA: un benchmark completo
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark
April 23, 2025
Autori: Hanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Haige Zhu, Jie Zhou, Jinchao Zhang
cs.AI
Abstract
L'analisi del linguaggio multimodale è un campo in rapida evoluzione che sfrutta molteplici modalità per migliorare la comprensione della semantica di alto livello sottostante alle espressioni conversazionali umane. Nonostante la sua importanza, poche ricerche hanno indagato la capacità dei modelli linguistici multimodali di grandi dimensioni (MLLMs) di comprendere la semantica a livello cognitivo. In questo articolo, introduciamo MMLA, un benchmark completo progettato specificamente per colmare questa lacuna. MMLA comprende oltre 61.000 espressioni multimodali tratte sia da scenari simulati che reali, coprendo sei dimensioni fondamentali della semantica multimodale: intento, emozione, atto dialogico, sentimento, stile di parlato e comportamento comunicativo. Valutiamo otto rami principali di LLMs e MLLMs utilizzando tre metodi: inferenza zero-shot, fine-tuning supervisionato e tuning basato su istruzioni. Esperimenti estensivi rivelano che anche i modelli fine-tuned raggiungono solo un'accuratezza del 60%~70%, evidenziando i limiti degli attuali MLLMs nella comprensione del linguaggio umano complesso. Crediamo che MMLA servirà come solida base per esplorare il potenziale dei modelli linguistici di grandi dimensioni nell'analisi del linguaggio multimodale e fornirà risorse preziose per far progredire questo campo. I dataset e il codice sono open-source all'indirizzo https://github.com/thuiar/MMLA.
English
Multimodal language analysis is a rapidly evolving field that leverages
multiple modalities to enhance the understanding of high-level semantics
underlying human conversational utterances. Despite its significance, little
research has investigated the capability of multimodal large language models
(MLLMs) to comprehend cognitive-level semantics. In this paper, we introduce
MMLA, a comprehensive benchmark specifically designed to address this gap. MMLA
comprises over 61K multimodal utterances drawn from both staged and real-world
scenarios, covering six core dimensions of multimodal semantics: intent,
emotion, dialogue act, sentiment, speaking style, and communication behavior.
We evaluate eight mainstream branches of LLMs and MLLMs using three methods:
zero-shot inference, supervised fine-tuning, and instruction tuning. Extensive
experiments reveal that even fine-tuned models achieve only about 60%~70%
accuracy, underscoring the limitations of current MLLMs in understanding
complex human language. We believe that MMLA will serve as a solid foundation
for exploring the potential of large language models in multimodal language
analysis and provide valuable resources to advance this field. The datasets and
code are open-sourced at https://github.com/thuiar/MMLA.Summary
AI-Generated Summary