ChatPaper.aiChatPaper

M^3FinMeeting: Многоязычный, межотраслевой и многозадачный набор данных для оценки понимания финансовых встреч

M^3FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset

June 3, 2025
Авторы: Jie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen
cs.AI

Аннотация

Недавние прорывы в области больших языковых моделей (LLM) привели к разработке новых эталонов для оценки их производительности в финансовой сфере. Однако текущие финансовые эталоны часто основываются на новостных статьях, отчетах о доходах или объявлениях, что затрудняет отражение реальной динамики финансовых встреч. Чтобы устранить этот пробел, мы предлагаем новый эталон под названием M^3FinMeeting, который представляет собой многоязычный, многосекторный и многофункциональный набор данных, предназначенный для понимания финансовых встреч. Во-первых, M^3FinMeeting поддерживает английский, китайский и японский языки, что улучшает понимание финансовых обсуждений в различных языковых контекстах. Во-вторых, он охватывает различные отрасли, определенные Глобальным стандартом классификации отраслей (GICS), что гарантирует широкий спектр финансовой деятельности. Наконец, M^3FinMeeting включает три задачи: суммирование, извлечение пар вопрос-ответ (QA) и ответы на вопросы, что способствует более реалистичной и всесторонней оценке понимания. Экспериментальные результаты с семью популярными LLM показывают, что даже самые передовые модели с длинным контекстом имеют значительный потенциал для улучшения, что демонстрирует эффективность M^3FinMeeting как эталона для оценки навыков понимания финансовых встреч LLM.
English
Recent breakthroughs in large language models (LLMs) have led to the development of new benchmarks for evaluating their performance in the financial domain. However, current financial benchmarks often rely on news articles, earnings reports, or announcements, making it challenging to capture the real-world dynamics of financial meetings. To address this gap, we propose a novel benchmark called M^3FinMeeting, which is a multilingual, multi-sector, and multi-task dataset designed for financial meeting understanding. First, M^3FinMeeting supports English, Chinese, and Japanese, enhancing comprehension of financial discussions in diverse linguistic contexts. Second, it encompasses various industry sectors defined by the Global Industry Classification Standard (GICS), ensuring that the benchmark spans a broad range of financial activities. Finally, M^3FinMeeting includes three tasks: summarization, question-answer (QA) pair extraction, and question answering, facilitating a more realistic and comprehensive evaluation of understanding. Experimental results with seven popular LLMs reveal that even the most advanced long-context models have significant room for improvement, demonstrating the effectiveness of M^3FinMeeting as a benchmark for assessing LLMs' financial meeting comprehension skills.
PDF22June 4, 2025