M^3FinMeeting: Ein mehrsprachiger, multisektoraler und multitaskfähiger Evaluierungsdatensatz für das Verständnis von Finanzmeetings
M^3FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset
June 3, 2025
Autoren: Jie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen
cs.AI
Zusammenfassung
Jüngste Durchbrüche bei großen Sprachmodellen (LLMs) haben zur Entwicklung neuer Benchmarks für die Bewertung ihrer Leistung im Finanzbereich geführt. Allerdings stützen sich aktuelle Finanzbenchmarks oft auf Nachrichtenartikel, Gewinnberichte oder Ankündigungen, was es schwierig macht, die realen Dynamiken von Finanzmeetings zu erfassen. Um diese Lücke zu schließen, schlagen wir einen neuartigen Benchmark namens M^3FinMeeting vor, ein mehrsprachiger, multisektoraler und multitaskfähiger Datensatz, der für das Verständnis von Finanzmeetings entwickelt wurde. Erstens unterstützt M^3FinMeeting Englisch, Chinesisch und Japanisch, wodurch das Verständnis von Finanzdiskussionen in verschiedenen sprachlichen Kontexten verbessert wird. Zweitens umfasst es verschiedene Industriesektoren, die durch den Global Industry Classification Standard (GICS) definiert sind, und stellt sicher, dass der Benchmark eine breite Palette von Finanzaktivitäten abdeckt. Schließlich beinhaltet M^3FinMeeting drei Aufgaben: Zusammenfassung, Extraktion von Frage-Antwort-Paaren (QA) und Fragebeantwortung, was eine realistischere und umfassendere Bewertung des Verständnisses ermöglicht. Experimentelle Ergebnisse mit sieben populären LLMs zeigen, dass selbst die fortschrittlichsten Langkontextmodelle noch erheblichen Verbesserungsbedarf haben, was die Wirksamkeit von M^3FinMeeting als Benchmark zur Bewertung der Finanzmeeting-Verständnisfähigkeiten von LLMs unterstreicht.
English
Recent breakthroughs in large language models (LLMs) have led to the
development of new benchmarks for evaluating their performance in the financial
domain. However, current financial benchmarks often rely on news articles,
earnings reports, or announcements, making it challenging to capture the
real-world dynamics of financial meetings. To address this gap, we propose a
novel benchmark called M^3FinMeeting, which is a multilingual,
multi-sector, and multi-task dataset designed for financial meeting
understanding. First, M^3FinMeeting supports English, Chinese, and
Japanese, enhancing comprehension of financial discussions in diverse
linguistic contexts. Second, it encompasses various industry sectors defined by
the Global Industry Classification Standard (GICS), ensuring that the benchmark
spans a broad range of financial activities. Finally,
M^3FinMeeting includes three tasks: summarization, question-answer
(QA) pair extraction, and question answering, facilitating a more realistic and
comprehensive evaluation of understanding. Experimental results with seven
popular LLMs reveal that even the most advanced long-context models have
significant room for improvement, demonstrating the effectiveness of
M^3FinMeeting as a benchmark for assessing LLMs' financial meeting
comprehension skills.