FinMTEB: Benchmark de Incorporação Massiva de Textos em Finanças
FinMTEB: Finance Massive Text Embedding Benchmark
February 16, 2025
Autores: Yixuan Tang, Yi Yang
cs.AI
Resumo
Modelos de embedding desempenham um papel crucial na representação e recuperação de informações em diversas aplicações de PLN. Avanços recentes em modelos de linguagem de grande escala (LLMs) aprimoraram ainda mais o desempenho dos modelos de embedding. Embora esses modelos sejam frequentemente avaliados em conjuntos de dados de propósito geral, aplicações do mundo real exigem avaliações específicas de domínio. Neste trabalho, apresentamos o Finance Massive Text Embedding Benchmark (FinMTEB), uma contraparte especializada do MTEB projetada para o domínio financeiro. O FinMTEB compreende 64 conjuntos de dados de embedding específicos do domínio financeiro, abrangendo 7 tarefas que cobrem diversos tipos textuais em chinês e inglês, como artigos de notícias financeiras, relatórios anuais corporativos, relatórios ESG, arquivamentos regulatórios e transcrições de teleconferências de resultados. Também desenvolvemos um modelo adaptado ao setor financeiro, o FinPersona-E5, utilizando um método sintético de dados baseado em personas para cobrir diversas tarefas de embedding financeiro para treinamento. Por meio de uma avaliação extensa de 15 modelos de embedding, incluindo o FinPersona-E5, demonstramos três descobertas principais: (1) o desempenho em benchmarks de propósito geral mostra uma correlação limitada com tarefas do domínio financeiro; (2) modelos adaptados ao domínio superam consistentemente suas contrapartes de propósito geral; e (3) surpreendentemente, uma abordagem simples de Bag-of-Words (BoW) supera embeddings densos sofisticados em tarefas de Similaridade Semântica Textual (STS) no setor financeiro, destacando limitações atuais nas técnicas de embedding denso. Nosso trabalho estabelece uma estrutura robusta de avaliação para aplicações de PLN no setor financeiro e fornece insights cruciais para o desenvolvimento de modelos de embedding específicos de domínio.
English
Embedding models play a crucial role in representing and retrieving
information across various NLP applications. Recent advances in large language
models (LLMs) have further enhanced the performance of embedding models. While
these models are often benchmarked on general-purpose datasets, real-world
applications demand domain-specific evaluation. In this work, we introduce the
Finance Massive Text Embedding Benchmark (FinMTEB), a specialized counterpart
to MTEB designed for the financial domain. FinMTEB comprises 64 financial
domain-specific embedding datasets across 7 tasks that cover diverse textual
types in both Chinese and English, such as financial news articles, corporate
annual reports, ESG reports, regulatory filings, and earnings call transcripts.
We also develop a finance-adapted model, FinPersona-E5, using a persona-based
data synthetic method to cover diverse financial embedding tasks for training.
Through extensive evaluation of 15 embedding models, including FinPersona-E5,
we show three key findings: (1) performance on general-purpose benchmarks shows
limited correlation with financial domain tasks; (2) domain-adapted models
consistently outperform their general-purpose counterparts; and (3)
surprisingly, a simple Bag-of-Words (BoW) approach outperforms sophisticated
dense embeddings in financial Semantic Textual Similarity (STS) tasks,
underscoring current limitations in dense embedding techniques. Our work
establishes a robust evaluation framework for financial NLP applications and
provides crucial insights for developing domain-specific embedding models.Summary
AI-Generated Summary