FinMTEB: Финансовый эталонный тест для массового создания текстовых вложений
FinMTEB: Finance Massive Text Embedding Benchmark
February 16, 2025
Авторы: Yixuan Tang, Yi Yang
cs.AI
Аннотация
Модели векторного представления (эмбеддинга) играют ключевую роль в представлении и извлечении информации в различных приложениях обработки естественного языка (NLP). Последние достижения в области больших языковых моделей (LLM) значительно улучшили производительность моделей эмбеддинга. Хотя эти модели часто тестируются на общецелевых наборах данных, реальные приложения требуют оценки в конкретных предметных областях. В данной работе мы представляем Finance Massive Text Embedding Benchmark (FinMTEB) — специализированный аналог MTEB, разработанный для финансовой сферы. FinMTEB включает 64 набора данных для эмбеддинга, специфичных для финансовой области, охватывающих 7 задач, которые включают разнообразные типы текстов на китайском и английском языках, такие как финансовые новостные статьи, годовые отчеты компаний, ESG-отчеты, регуляторные документы и расшифровки конференц-звонков о финансовых результатах. Мы также разработали адаптированную для финансов модель FinPersona-E5, используя метод синтетических данных на основе персонажей для охвата разнообразных задач финансового эмбеддинга в процессе обучения. В результате масштабной оценки 15 моделей эмбеддинга, включая FinPersona-E5, мы выявили три ключевых вывода: (1) производительность на общецелевых тестах слабо коррелирует с задачами в финансовой области; (2) адаптированные для предметной области модели стабильно превосходят свои общецелевые аналоги; (3) удивительно, но простой подход Bag-of-Words (BoW) превосходит сложные плотные эмбеддинги в задачах семантического сходства текстов (STS) в финансовой сфере, что подчеркивает текущие ограничения плотных методов эмбеддинга. Наша работа устанавливает надежную основу для оценки финансовых приложений NLP и предоставляет важные инсайты для разработки моделей эмбеддинга, специфичных для предметной области.
English
Embedding models play a crucial role in representing and retrieving
information across various NLP applications. Recent advances in large language
models (LLMs) have further enhanced the performance of embedding models. While
these models are often benchmarked on general-purpose datasets, real-world
applications demand domain-specific evaluation. In this work, we introduce the
Finance Massive Text Embedding Benchmark (FinMTEB), a specialized counterpart
to MTEB designed for the financial domain. FinMTEB comprises 64 financial
domain-specific embedding datasets across 7 tasks that cover diverse textual
types in both Chinese and English, such as financial news articles, corporate
annual reports, ESG reports, regulatory filings, and earnings call transcripts.
We also develop a finance-adapted model, FinPersona-E5, using a persona-based
data synthetic method to cover diverse financial embedding tasks for training.
Through extensive evaluation of 15 embedding models, including FinPersona-E5,
we show three key findings: (1) performance on general-purpose benchmarks shows
limited correlation with financial domain tasks; (2) domain-adapted models
consistently outperform their general-purpose counterparts; and (3)
surprisingly, a simple Bag-of-Words (BoW) approach outperforms sophisticated
dense embeddings in financial Semantic Textual Similarity (STS) tasks,
underscoring current limitations in dense embedding techniques. Our work
establishes a robust evaluation framework for financial NLP applications and
provides crucial insights for developing domain-specific embedding models.Summary
AI-Generated Summary