FinMTEB: Punto de Referencia Masivo para Incrustaciones de Texto en Finanzas
FinMTEB: Finance Massive Text Embedding Benchmark
February 16, 2025
Autores: Yixuan Tang, Yi Yang
cs.AI
Resumen
Los modelos de embedding desempeñan un papel crucial en la representación y recuperación de información en diversas aplicaciones de Procesamiento del Lenguaje Natural (PLN). Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mejorado aún más el rendimiento de los modelos de embedding. Si bien estos modelos suelen evaluarse en conjuntos de datos de propósito general, las aplicaciones del mundo real requieren una evaluación específica del dominio. En este trabajo, presentamos el Finance Massive Text Embedding Benchmark (FinMTEB), una contraparte especializada de MTEB diseñada para el dominio financiero. FinMTEB comprende 64 conjuntos de datos de embedding específicos del dominio financiero en 7 tareas que cubren diversos tipos textuales tanto en chino como en inglés, como artículos de noticias financieras, informes anuales corporativos, informes ESG, documentos regulatorios y transcripciones de llamadas de resultados. También desarrollamos un modelo adaptado a las finanzas, FinPersona-E5, utilizando un método sintético de datos basado en personas para cubrir diversas tareas de embedding financiero durante el entrenamiento. A través de una evaluación exhaustiva de 15 modelos de embedding, incluido FinPersona-E5, mostramos tres hallazgos clave: (1) el rendimiento en benchmarks de propósito general muestra una correlación limitada con las tareas del dominio financiero; (2) los modelos adaptados al dominio superan consistentemente a sus contrapartes de propósito general; y (3) sorprendentemente, un enfoque simple de Bolsa de Palabras (BoW, por sus siglas en inglés) supera a los embeddings densos sofisticados en tareas de Similitud Semántica de Texto (STS) financiera, destacando las limitaciones actuales en las técnicas de embedding denso. Nuestro trabajo establece un marco de evaluación robusto para aplicaciones de PLN en finanzas y proporciona insights cruciales para el desarrollo de modelos de embedding específicos del dominio.
English
Embedding models play a crucial role in representing and retrieving
information across various NLP applications. Recent advances in large language
models (LLMs) have further enhanced the performance of embedding models. While
these models are often benchmarked on general-purpose datasets, real-world
applications demand domain-specific evaluation. In this work, we introduce the
Finance Massive Text Embedding Benchmark (FinMTEB), a specialized counterpart
to MTEB designed for the financial domain. FinMTEB comprises 64 financial
domain-specific embedding datasets across 7 tasks that cover diverse textual
types in both Chinese and English, such as financial news articles, corporate
annual reports, ESG reports, regulatory filings, and earnings call transcripts.
We also develop a finance-adapted model, FinPersona-E5, using a persona-based
data synthetic method to cover diverse financial embedding tasks for training.
Through extensive evaluation of 15 embedding models, including FinPersona-E5,
we show three key findings: (1) performance on general-purpose benchmarks shows
limited correlation with financial domain tasks; (2) domain-adapted models
consistently outperform their general-purpose counterparts; and (3)
surprisingly, a simple Bag-of-Words (BoW) approach outperforms sophisticated
dense embeddings in financial Semantic Textual Similarity (STS) tasks,
underscoring current limitations in dense embedding techniques. Our work
establishes a robust evaluation framework for financial NLP applications and
provides crucial insights for developing domain-specific embedding models.Summary
AI-Generated Summary