M^3FinMeeting: Ein mehrsprachiger, multisektoraler und multitaskfähiger Evaluierungsdatensatz für das Verständnis von Finanzmeetings

papers.abstract

Jüngste Durchbrüche bei großen Sprachmodellen (LLMs) haben zur Entwicklung neuer Benchmarks für die Bewertung ihrer Leistung im Finanzbereich geführt. Allerdings stützen sich aktuelle Finanzbenchmarks oft auf Nachrichtenartikel, Gewinnberichte oder Ankündigungen, was es schwierig macht, die realen Dynamiken von Finanzmeetings zu erfassen. Um diese Lücke zu schließen, schlagen wir einen neuartigen Benchmark namens M^3FinMeeting vor, ein mehrsprachiger, multisektoraler und multitaskfähiger Datensatz, der für das Verständnis von Finanzmeetings entwickelt wurde. Erstens unterstützt M^3FinMeeting Englisch, Chinesisch und Japanisch, wodurch das Verständnis von Finanzdiskussionen in verschiedenen sprachlichen Kontexten verbessert wird. Zweitens umfasst es verschiedene Industriesektoren, die durch den Global Industry Classification Standard (GICS) definiert sind, und stellt sicher, dass der Benchmark eine breite Palette von Finanzaktivitäten abdeckt. Schließlich beinhaltet M^3FinMeeting drei Aufgaben: Zusammenfassung, Extraktion von Frage-Antwort-Paaren (QA) und Fragebeantwortung, was eine realistischere und umfassendere Bewertung des Verständnisses ermöglicht. Experimentelle Ergebnisse mit sieben populären LLMs zeigen, dass selbst die fortschrittlichsten Langkontextmodelle noch erheblichen Verbesserungsbedarf haben, was die Wirksamkeit von M^3FinMeeting als Benchmark zur Bewertung der Finanzmeeting-Verständnisfähigkeiten von LLMs unterstreicht.

English

Recent breakthroughs in large language models (LLMs) have led to the development of new benchmarks for evaluating their performance in the financial domain. However, current financial benchmarks often rely on news articles, earnings reports, or announcements, making it challenging to capture the real-world dynamics of financial meetings. To address this gap, we propose a novel benchmark called M^3FinMeeting, which is a multilingual, multi-sector, and multi-task dataset designed for financial meeting understanding. First, M^3FinMeeting supports English, Chinese, and Japanese, enhancing comprehension of financial discussions in diverse linguistic contexts. Second, it encompasses various industry sectors defined by the Global Industry Classification Standard (GICS), ensuring that the benchmark spans a broad range of financial activities. Finally, M^3FinMeeting includes three tasks: summarization, question-answer (QA) pair extraction, and question answering, facilitating a more realistic and comprehensive evaluation of understanding. Experimental results with seven popular LLMs reveal that even the most advanced long-context models have significant room for improvement, demonstrating the effectiveness of M^3FinMeeting as a benchmark for assessing LLMs' financial meeting comprehension skills.

M^3FinMeeting: Ein mehrsprachiger, multisektoraler und multitaskfähiger Evaluierungsdatensatz für das Verständnis von Finanzmeetings

M^3FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset

papers.abstract

Support