Plutus: 低リソースのギリシャ財務分野における大規模言語モデルのベンチマーキング
Plutus: Benchmarking Large Language Models in Low-Resource Greek Finance
February 26, 2025
著者: Xueqing Peng, Triantafillos Papadopoulos, Efstathia Soufleri, Polydoros Giannouris, Ruoyu Xiang, Yan Wang, Lingfei Qian, Jimin Huang, Qianqian Xie, Sophia Ananiadou
cs.AI
要旨
ギリシャが世界経済において重要な役割を果たしているにもかかわらず、ギリシャ語の言語的複雑さとドメイン固有データセットの不足により、大規模言語モデル(LLM)はギリシャの金融文脈において十分に探究されていません。これまでの多言語金融自然言語処理(NLP)の取り組みでは、著しい性能の格差が明らかになっていますが、これまでに専用のギリシャ金融ベンチマークやギリシャ固有の金融LLMは開発されていません。このギャップを埋めるため、私たちは最初のギリシャ金融評価ベンチマークであるPlutus-benと、ギリシャのドメイン固有データでファインチューニングされた先駆的なギリシャ金融LLMであるPlutus-8Bを紹介します。Plutus-benは、ギリシャ語における5つの主要な金融NLPタスク(数値およびテキストの固有表現認識、質問応答、要約生成、トピック分類)に対応し、体系的かつ再現可能なLLM評価を可能にします。これらのタスクを支えるため、専門のネイティブギリシャ語話者によって詳細に注釈が付けられた3つの新しい高品質なギリシャ金融データセットを提示し、既存の2つのリソースを補強しました。Plutus-benにおける22のLLMの包括的な評価により、ギリシャ金融NLPは言語的複雑さ、ドメイン固有の専門用語、金融推論のギャップにより依然として課題が多いことが明らかになりました。これらの発見は、言語間転移の限界、ギリシャ語で訓練されたモデルにおける金融専門知識の必要性、および金融LLMをギリシャ語テキストに適応させることの難しさを強調しています。私たちは、再現可能な研究を促進し、ギリシャ金融NLPを進展させ、金融における多言語インクルージョンを広げるために、Plutus-ben、Plutus-8B、および関連するすべてのデータセットを公開します。
English
Despite Greece's pivotal role in the global economy, large language models
(LLMs) remain underexplored for Greek financial context due to the linguistic
complexity of Greek and the scarcity of domain-specific datasets. Previous
efforts in multilingual financial natural language processing (NLP) have
exposed considerable performance disparities, yet no dedicated Greek financial
benchmarks or Greek-specific financial LLMs have been developed until now. To
bridge this gap, we introduce Plutus-ben, the first Greek Financial Evaluation
Benchmark, and Plutus-8B, the pioneering Greek Financial LLM, fine-tuned with
Greek domain-specific data. Plutus-ben addresses five core financial NLP tasks
in Greek: numeric and textual named entity recognition, question answering,
abstractive summarization, and topic classification, thereby facilitating
systematic and reproducible LLM assessments. To underpin these tasks, we
present three novel, high-quality Greek financial datasets, thoroughly
annotated by expert native Greek speakers, augmented by two existing resources.
Our comprehensive evaluation of 22 LLMs on Plutus-ben reveals that Greek
financial NLP remains challenging due to linguistic complexity, domain-specific
terminology, and financial reasoning gaps. These findings underscore the
limitations of cross-lingual transfer, the necessity for financial expertise in
Greek-trained models, and the challenges of adapting financial LLMs to Greek
text. We release Plutus-ben, Plutus-8B, and all associated datasets publicly to
promote reproducible research and advance Greek financial NLP, fostering
broader multilingual inclusivity in finance.Summary
AI-Generated Summary