ChatPaper.aiChatPaper

M^3FinMeeting: Un Conjunto de Datos de Evaluación para la Comprensión de Reuniones Financieras Multilingüe, Multisectorial y de Múltiples Tareas

M^3FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset

June 3, 2025
Autores: Jie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen
cs.AI

Resumen

Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han llevado al desarrollo de nuevos puntos de referencia para evaluar su desempeño en el ámbito financiero. Sin embargo, los puntos de referencia financieros actuales suelen basarse en artículos de noticias, informes de ganancias o anuncios, lo que dificulta capturar la dinámica del mundo real de las reuniones financieras. Para abordar esta brecha, proponemos un nuevo punto de referencia llamado M^3FinMeeting, que es un conjunto de datos multilingüe, multisectorial y multitarea diseñado para la comprensión de reuniones financieras. En primer lugar, M^3FinMeeting admite inglés, chino y japonés, mejorando la comprensión de las discusiones financieras en diversos contextos lingüísticos. En segundo lugar, abarca varios sectores industriales definidos por el Estándar de Clasificación Industrial Global (GICS), asegurando que el punto de referencia cubra una amplia gama de actividades financieras. Finalmente, M^3FinMeeting incluye tres tareas: resumen, extracción de pares pregunta-respuesta (QA) y respuesta a preguntas, facilitando una evaluación más realista y completa de la comprensión. Los resultados experimentales con siete LLMs populares revelan que incluso los modelos de contexto largo más avanzados tienen un margen significativo de mejora, demostrando la efectividad de M^3FinMeeting como punto de referencia para evaluar las habilidades de comprensión de reuniones financieras de los LLMs.
English
Recent breakthroughs in large language models (LLMs) have led to the development of new benchmarks for evaluating their performance in the financial domain. However, current financial benchmarks often rely on news articles, earnings reports, or announcements, making it challenging to capture the real-world dynamics of financial meetings. To address this gap, we propose a novel benchmark called M^3FinMeeting, which is a multilingual, multi-sector, and multi-task dataset designed for financial meeting understanding. First, M^3FinMeeting supports English, Chinese, and Japanese, enhancing comprehension of financial discussions in diverse linguistic contexts. Second, it encompasses various industry sectors defined by the Global Industry Classification Standard (GICS), ensuring that the benchmark spans a broad range of financial activities. Finally, M^3FinMeeting includes three tasks: summarization, question-answer (QA) pair extraction, and question answering, facilitating a more realistic and comprehensive evaluation of understanding. Experimental results with seven popular LLMs reveal that even the most advanced long-context models have significant room for improvement, demonstrating the effectiveness of M^3FinMeeting as a benchmark for assessing LLMs' financial meeting comprehension skills.
PDF33June 4, 2025