FinMTEB: Finanz-Massiv-Text-Einbettungs-Benchmark
FinMTEB: Finance Massive Text Embedding Benchmark
February 16, 2025
Autoren: Yixuan Tang, Yi Yang
cs.AI
Zusammenfassung
Embedding-Modelle spielen eine entscheidende Rolle bei der Darstellung und dem Abruf von Informationen in verschiedenen NLP-Anwendungen. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Leistung von Embedding-Modellen weiter verbessert. Während diese Modelle oft anhand von allgemeinen Datensätzen bewertet werden, erfordern reale Anwendungen eine domänenspezifische Evaluation. In dieser Arbeit stellen wir den Finance Massive Text Embedding Benchmark (FinMTEB) vor, eine spezialisierte Variante des MTEB für den Finanzbereich. FinMTEB umfasst 64 domänenspezifische Embedding-Datensätze im Finanzbereich, die 7 Aufgaben abdecken und verschiedene Textarten in Chinesisch und Englisch beinhalten, wie Finanznachrichten, Unternehmensberichte, ESG-Berichte, regulatorische Einreichungen und Transkripte von Ergebnispräsentationen. Wir entwickeln außerdem ein finanzspezifisches Modell, FinPersona-E5, das mit einer persona-basierten Daten-Synthese-Methode trainiert wird, um verschiedene finanzbezogene Embedding-Aufgaben abzudecken. Durch eine umfangreiche Evaluation von 15 Embedding-Modellen, einschließlich FinPersona-E5, zeigen wir drei zentrale Erkenntnisse: (1) Die Leistung auf allgemeinen Benchmarks zeigt nur eine begrenzte Korrelation mit Aufgaben im Finanzbereich; (2) domänenangepasste Modelle übertreffen durchweg ihre allgemeinen Gegenstücke; und (3) überraschenderweise übertrifft ein einfacher Bag-of-Words (BoW)-Ansatz komplexe dichte Embeddings in finanziellen Semantic Textual Similarity (STS)-Aufgaben, was die aktuellen Grenzen dichtbasierter Embedding-Techniken verdeutlicht. Unsere Arbeit etabliert ein robustes Evaluationsframework für finanzbezogene NLP-Anwendungen und liefert wichtige Erkenntnisse für die Entwicklung domänenspezifischer Embedding-Modelle.
English
Embedding models play a crucial role in representing and retrieving
information across various NLP applications. Recent advances in large language
models (LLMs) have further enhanced the performance of embedding models. While
these models are often benchmarked on general-purpose datasets, real-world
applications demand domain-specific evaluation. In this work, we introduce the
Finance Massive Text Embedding Benchmark (FinMTEB), a specialized counterpart
to MTEB designed for the financial domain. FinMTEB comprises 64 financial
domain-specific embedding datasets across 7 tasks that cover diverse textual
types in both Chinese and English, such as financial news articles, corporate
annual reports, ESG reports, regulatory filings, and earnings call transcripts.
We also develop a finance-adapted model, FinPersona-E5, using a persona-based
data synthetic method to cover diverse financial embedding tasks for training.
Through extensive evaluation of 15 embedding models, including FinPersona-E5,
we show three key findings: (1) performance on general-purpose benchmarks shows
limited correlation with financial domain tasks; (2) domain-adapted models
consistently outperform their general-purpose counterparts; and (3)
surprisingly, a simple Bag-of-Words (BoW) approach outperforms sophisticated
dense embeddings in financial Semantic Textual Similarity (STS) tasks,
underscoring current limitations in dense embedding techniques. Our work
establishes a robust evaluation framework for financial NLP applications and
provides crucial insights for developing domain-specific embedding models.Summary
AI-Generated Summary