ChatPaper.aiChatPaper

M^3FinMeeting: Um Conjunto de Dados de Avaliação para Compreensão de Reuniões Financeiras Multilíngue, Multissetorial e Multitarefa

M^3FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset

June 3, 2025
Autores: Jie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen
cs.AI

Resumo

Os recentes avanços em modelos de linguagem de grande escala (LLMs) levaram ao desenvolvimento de novos benchmarks para avaliar seu desempenho no domínio financeiro. No entanto, os benchmarks financeiros atuais frequentemente dependem de artigos de notícias, relatórios de resultados ou anúncios, o que torna desafiador capturar a dinâmica do mundo real das reuniões financeiras. Para abordar essa lacuna, propomos um novo benchmark chamado M^3FinMeeting, que é um conjunto de dados multilíngue, multissetorial e multitarefa projetado para a compreensão de reuniões financeiras. Primeiro, o M^3FinMeeting suporta inglês, chinês e japonês, aprimorando a compreensão de discussões financeiras em diversos contextos linguísticos. Segundo, ele abrange vários setores da indústria definidos pelo Global Industry Classification Standard (GICS), garantindo que o benchmark cubra uma ampla gama de atividades financeiras. Por fim, o M^3FinMeeting inclui três tarefas: sumarização, extração de pares pergunta-resposta (QA) e resposta a perguntas, facilitando uma avaliação mais realista e abrangente da compreensão. Resultados experimentais com sete LLMs populares revelam que mesmo os modelos de contexto longo mais avançados têm espaço significativo para melhoria, demonstrando a eficácia do M^3FinMeeting como um benchmark para avaliar as habilidades de compreensão de reuniões financeiras dos LLMs.
English
Recent breakthroughs in large language models (LLMs) have led to the development of new benchmarks for evaluating their performance in the financial domain. However, current financial benchmarks often rely on news articles, earnings reports, or announcements, making it challenging to capture the real-world dynamics of financial meetings. To address this gap, we propose a novel benchmark called M^3FinMeeting, which is a multilingual, multi-sector, and multi-task dataset designed for financial meeting understanding. First, M^3FinMeeting supports English, Chinese, and Japanese, enhancing comprehension of financial discussions in diverse linguistic contexts. Second, it encompasses various industry sectors defined by the Global Industry Classification Standard (GICS), ensuring that the benchmark spans a broad range of financial activities. Finally, M^3FinMeeting includes three tasks: summarization, question-answer (QA) pair extraction, and question answering, facilitating a more realistic and comprehensive evaluation of understanding. Experimental results with seven popular LLMs reveal that even the most advanced long-context models have significant room for improvement, demonstrating the effectiveness of M^3FinMeeting as a benchmark for assessing LLMs' financial meeting comprehension skills.
PDF32June 4, 2025