ChatPaper.aiChatPaper

M^3FinMeeting : Un ensemble de données d'évaluation pour la compréhension des réunions financières multilingues, multisectorielles et multitâches

M^3FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset

June 3, 2025
papers.authors: Jie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen
cs.AI

papers.abstract

Les récentes avancées dans les modèles de langage de grande envergure (LLMs) ont conduit au développement de nouveaux benchmarks pour évaluer leurs performances dans le domaine financier. Cependant, les benchmarks financiers actuels reposent souvent sur des articles de presse, des rapports de résultats ou des annonces, ce qui rend difficile la capture des dynamiques réelles des réunions financières. Pour combler cette lacune, nous proposons un nouveau benchmark appelé M^3FinMeeting, un ensemble de données multilingue, multisectoriel et multitâche conçu pour la compréhension des réunions financières. Premièrement, M^3FinMeeting prend en charge l'anglais, le chinois et le japonais, améliorant ainsi la compréhension des discussions financières dans divers contextes linguistiques. Deuxièmement, il englobe divers secteurs industriels définis par la norme de classification mondiale des industries (GICS), garantissant que le benchmark couvre un large éventail d'activités financières. Enfin, M^3FinMeeting inclut trois tâches : la synthèse, l'extraction de paires question-réponse (QA) et la réponse à des questions, facilitant une évaluation plus réaliste et complète de la compréhension. Les résultats expérimentaux obtenus avec sept LLMs populaires révèlent que même les modèles de contexte long les plus avancés ont une marge d'amélioration significative, démontrant l'efficacité de M^3FinMeeting en tant que benchmark pour évaluer les compétences de compréhension des réunions financières par les LLMs.
English
Recent breakthroughs in large language models (LLMs) have led to the development of new benchmarks for evaluating their performance in the financial domain. However, current financial benchmarks often rely on news articles, earnings reports, or announcements, making it challenging to capture the real-world dynamics of financial meetings. To address this gap, we propose a novel benchmark called M^3FinMeeting, which is a multilingual, multi-sector, and multi-task dataset designed for financial meeting understanding. First, M^3FinMeeting supports English, Chinese, and Japanese, enhancing comprehension of financial discussions in diverse linguistic contexts. Second, it encompasses various industry sectors defined by the Global Industry Classification Standard (GICS), ensuring that the benchmark spans a broad range of financial activities. Finally, M^3FinMeeting includes three tasks: summarization, question-answer (QA) pair extraction, and question answering, facilitating a more realistic and comprehensive evaluation of understanding. Experimental results with seven popular LLMs reveal that even the most advanced long-context models have significant room for improvement, demonstrating the effectiveness of M^3FinMeeting as a benchmark for assessing LLMs' financial meeting comprehension skills.
PDF33June 4, 2025