Os Grandes Modelos de Linguagem Podem Auxiliar na Análise de Linguagem Multimodal? MMLA: Um Benchmark Abrangente
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark
April 23, 2025
Autores: Hanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Haige Zhu, Jie Zhou, Jinchao Zhang
cs.AI
Resumo
A análise multimodal de linguagem é um campo em rápida evolução que aproveita múltiplas modalidades para aprimorar a compreensão da semântica de alto nível subjacente às expressões conversacionais humanas. Apesar de sua importância, poucas pesquisas investigaram a capacidade dos modelos de linguagem multimodal de grande escala (MLLMs) em compreender a semântica em nível cognitivo. Neste artigo, apresentamos o MMLA, um benchmark abrangente projetado especificamente para abordar essa lacuna. O MMLA compreende mais de 61 mil expressões multimodais extraídas de cenários encenados e do mundo real, abrangendo seis dimensões principais da semântica multimodal: intenção, emoção, ato dialógico, sentimento, estilo de fala e comportamento comunicativo. Avaliamos oito ramificações principais de LLMs e MLLMs utilizando três métodos: inferência zero-shot, ajuste fino supervisionado e ajuste por instrução. Experimentos extensivos revelam que mesmo modelos ajustados alcançam apenas cerca de 60% a 70% de precisão, destacando as limitações dos MLLMs atuais na compreensão da linguagem humana complexa. Acreditamos que o MMLA servirá como uma base sólida para explorar o potencial dos modelos de linguagem de grande escala na análise multimodal de linguagem e fornecerá recursos valiosos para avançar esse campo. Os conjuntos de dados e o código estão disponíveis em código aberto em https://github.com/thuiar/MMLA.
English
Multimodal language analysis is a rapidly evolving field that leverages
multiple modalities to enhance the understanding of high-level semantics
underlying human conversational utterances. Despite its significance, little
research has investigated the capability of multimodal large language models
(MLLMs) to comprehend cognitive-level semantics. In this paper, we introduce
MMLA, a comprehensive benchmark specifically designed to address this gap. MMLA
comprises over 61K multimodal utterances drawn from both staged and real-world
scenarios, covering six core dimensions of multimodal semantics: intent,
emotion, dialogue act, sentiment, speaking style, and communication behavior.
We evaluate eight mainstream branches of LLMs and MLLMs using three methods:
zero-shot inference, supervised fine-tuning, and instruction tuning. Extensive
experiments reveal that even fine-tuned models achieve only about 60%~70%
accuracy, underscoring the limitations of current MLLMs in understanding
complex human language. We believe that MMLA will serve as a solid foundation
for exploring the potential of large language models in multimodal language
analysis and provide valuable resources to advance this field. The datasets and
code are open-sourced at https://github.com/thuiar/MMLA.Summary
AI-Generated Summary