¿Pueden los modelos de lenguaje de gran escala ayudar en el análisis multimodal del lenguaje? MMLA: Un punto de referencia integral
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark
April 23, 2025
Autores: Hanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Haige Zhu, Jie Zhou, Jinchao Zhang
cs.AI
Resumen
El análisis multimodal del lenguaje es un campo en rápida evolución que aprovecha múltiples modalidades para mejorar la comprensión de la semántica de alto nivel subyacente en las expresiones conversacionales humanas. A pesar de su importancia, pocas investigaciones han explorado la capacidad de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) para comprender la semántica a nivel cognitivo. En este artículo, presentamos MMLA, un punto de referencia integral diseñado específicamente para abordar esta brecha. MMLA comprende más de 61K expresiones multimodales extraídas tanto de escenarios simulados como del mundo real, cubriendo seis dimensiones clave de la semántica multimodal: intención, emoción, acto de diálogo, sentimiento, estilo de habla y comportamiento comunicativo. Evaluamos ocho ramas principales de modelos de lenguaje (LLMs) y MLLMs utilizando tres métodos: inferencia zero-shot, ajuste supervisado y ajuste por instrucción. Experimentos exhaustivos revelan que incluso los modelos ajustados logran solo entre un 60% y un 70% de precisión, lo que subraya las limitaciones de los MLLMs actuales para comprender el lenguaje humano complejo. Creemos que MMLA servirá como una base sólida para explorar el potencial de los modelos de lenguaje de gran escala en el análisis multimodal del lenguaje y proporcionará recursos valiosos para avanzar en este campo. Los conjuntos de datos y el código están disponibles en https://github.com/thuiar/MMLA.
English
Multimodal language analysis is a rapidly evolving field that leverages
multiple modalities to enhance the understanding of high-level semantics
underlying human conversational utterances. Despite its significance, little
research has investigated the capability of multimodal large language models
(MLLMs) to comprehend cognitive-level semantics. In this paper, we introduce
MMLA, a comprehensive benchmark specifically designed to address this gap. MMLA
comprises over 61K multimodal utterances drawn from both staged and real-world
scenarios, covering six core dimensions of multimodal semantics: intent,
emotion, dialogue act, sentiment, speaking style, and communication behavior.
We evaluate eight mainstream branches of LLMs and MLLMs using three methods:
zero-shot inference, supervised fine-tuning, and instruction tuning. Extensive
experiments reveal that even fine-tuned models achieve only about 60%~70%
accuracy, underscoring the limitations of current MLLMs in understanding
complex human language. We believe that MMLA will serve as a solid foundation
for exploring the potential of large language models in multimodal language
analysis and provide valuable resources to advance this field. The datasets and
code are open-sourced at https://github.com/thuiar/MMLA.Summary
AI-Generated Summary