FinMTEB : Benchmark d'Intégration de Texte Massif pour la Finance
FinMTEB: Finance Massive Text Embedding Benchmark
February 16, 2025
Auteurs: Yixuan Tang, Yi Yang
cs.AI
Résumé
Les modèles d'embedding jouent un rôle crucial dans la représentation et la récupération d'informations à travers diverses applications de traitement du langage naturel (NLP). Les récents progrès des grands modèles de langage (LLMs) ont encore amélioré les performances des modèles d'embedding. Bien que ces modèles soient souvent évalués sur des ensembles de données généralistes, les applications réelles nécessitent une évaluation spécifique au domaine. Dans ce travail, nous introduisons le Finance Massive Text Embedding Benchmark (FinMTEB), une version spécialisée de MTEB conçue pour le domaine financier. FinMTEB comprend 64 ensembles de données d'embedding spécifiques au domaine financier répartis sur 7 tâches qui couvrent divers types de textes en chinois et en anglais, tels que des articles de presse financière, des rapports annuels d'entreprises, des rapports ESG, des documents réglementaires et des transcriptions d'appels sur les résultats. Nous développons également un modèle adapté à la finance, FinPersona-E5, en utilisant une méthode de synthèse de données basée sur des personas pour couvrir diverses tâches d'embedding financier pour l'entraînement. À travers une évaluation approfondie de 15 modèles d'embedding, y compris FinPersona-E5, nous montrons trois résultats clés : (1) la performance sur les benchmarks généralistes montre une corrélation limitée avec les tâches du domaine financier ; (2) les modèles adaptés au domaine surpassent systématiquement leurs homologues généralistes ; et (3) de manière surprenante, une simple approche de sac de mots (BoW) surpasse les embeddings denses sophistiqués dans les tâches de similarité sémantique textuelle (STS) financières, soulignant les limites actuelles des techniques d'embedding dense. Notre travail établit un cadre d'évaluation robuste pour les applications NLP financières et fournit des insights cruciaux pour le développement de modèles d'embedding spécifiques au domaine.
English
Embedding models play a crucial role in representing and retrieving
information across various NLP applications. Recent advances in large language
models (LLMs) have further enhanced the performance of embedding models. While
these models are often benchmarked on general-purpose datasets, real-world
applications demand domain-specific evaluation. In this work, we introduce the
Finance Massive Text Embedding Benchmark (FinMTEB), a specialized counterpart
to MTEB designed for the financial domain. FinMTEB comprises 64 financial
domain-specific embedding datasets across 7 tasks that cover diverse textual
types in both Chinese and English, such as financial news articles, corporate
annual reports, ESG reports, regulatory filings, and earnings call transcripts.
We also develop a finance-adapted model, FinPersona-E5, using a persona-based
data synthetic method to cover diverse financial embedding tasks for training.
Through extensive evaluation of 15 embedding models, including FinPersona-E5,
we show three key findings: (1) performance on general-purpose benchmarks shows
limited correlation with financial domain tasks; (2) domain-adapted models
consistently outperform their general-purpose counterparts; and (3)
surprisingly, a simple Bag-of-Words (BoW) approach outperforms sophisticated
dense embeddings in financial Semantic Textual Similarity (STS) tasks,
underscoring current limitations in dense embedding techniques. Our work
establishes a robust evaluation framework for financial NLP applications and
provides crucial insights for developing domain-specific embedding models.Summary
AI-Generated Summary