Plutus: Benchmarking van grote taalmodellen in het Grieks met beperkte financiële bronnen
Plutus: Benchmarking Large Language Models in Low-Resource Greek Finance
February 26, 2025
Auteurs: Xueqing Peng, Triantafillos Papadopoulos, Efstathia Soufleri, Polydoros Giannouris, Ruoyu Xiang, Yan Wang, Lingfei Qian, Jimin Huang, Qianqian Xie, Sophia Ananiadou
cs.AI
Samenvatting
Ondanks de cruciale rol van Griekenland in de wereldeconomie, blijven grote taalmodellen (LLMs) onderbelicht voor de Griekse financiële context vanwege de linguïstische complexiteit van het Grieks en het gebrek aan domeinspecifieke datasets. Eerdere inspanningen op het gebied van meertalige financiële natuurlijke taalverwerking (NLP) hebben aanzienlijke prestatieverschillen aan het licht gebracht, maar tot nu toe zijn er geen specifieke Griekse financiële benchmarks of Griekse financiële LLMs ontwikkeld. Om deze kloof te overbruggen, introduceren we Plutus-ben, de eerste Griekse Financiële Evaluatie Benchmark, en Plutus-8B, het baanbrekende Griekse Financiële LLM, afgestemd met Griekse domeinspecifieke data. Plutus-ben behandelt vijf kern-NLP-taken in het Grieks: numerieke en tekstuele herkenning van benoemde entiteiten, vraagbeantwoording, abstractieve samenvatting en onderwerpsclassificatie, waardoor systematische en reproduceerbare LLM-evaluaties mogelijk worden. Om deze taken te ondersteunen, presenteren we drie nieuwe, hoogwaardige Griekse financiële datasets, grondig geannoteerd door expert moedertaalsprekers van het Grieks, aangevuld met twee bestaande bronnen. Onze uitgebreide evaluatie van 22 LLMs op Plutus-ben toont aan dat Griekse financiële NLP uitdagend blijft vanwege linguïstische complexiteit, domeinspecifieke terminologie en hiaten in financiële redenering. Deze bevindingen benadrukken de beperkingen van cross-linguale transfer, de noodzaak van financiële expertise in Griekse modellen en de uitdagingen van het aanpassen van financiële LLMs aan Griekse tekst. We maken Plutus-ben, Plutus-8B en alle bijbehorende datasets openbaar om reproduceerbaar onderzoek te bevorderen en de Griekse financiële NLP vooruit te helpen, waardoor bredere meertalige inclusiviteit in de financiële sector wordt gestimuleerd.
English
Despite Greece's pivotal role in the global economy, large language models
(LLMs) remain underexplored for Greek financial context due to the linguistic
complexity of Greek and the scarcity of domain-specific datasets. Previous
efforts in multilingual financial natural language processing (NLP) have
exposed considerable performance disparities, yet no dedicated Greek financial
benchmarks or Greek-specific financial LLMs have been developed until now. To
bridge this gap, we introduce Plutus-ben, the first Greek Financial Evaluation
Benchmark, and Plutus-8B, the pioneering Greek Financial LLM, fine-tuned with
Greek domain-specific data. Plutus-ben addresses five core financial NLP tasks
in Greek: numeric and textual named entity recognition, question answering,
abstractive summarization, and topic classification, thereby facilitating
systematic and reproducible LLM assessments. To underpin these tasks, we
present three novel, high-quality Greek financial datasets, thoroughly
annotated by expert native Greek speakers, augmented by two existing resources.
Our comprehensive evaluation of 22 LLMs on Plutus-ben reveals that Greek
financial NLP remains challenging due to linguistic complexity, domain-specific
terminology, and financial reasoning gaps. These findings underscore the
limitations of cross-lingual transfer, the necessity for financial expertise in
Greek-trained models, and the challenges of adapting financial LLMs to Greek
text. We release Plutus-ben, Plutus-8B, and all associated datasets publicly to
promote reproducible research and advance Greek financial NLP, fostering
broader multilingual inclusivity in finance.