ChatPaper.aiChatPaper

Plutus: 저자원 그리스어 금융 분야에서의 대규모 언어 모델 벤치마킹

Plutus: Benchmarking Large Language Models in Low-Resource Greek Finance

February 26, 2025
저자: Xueqing Peng, Triantafillos Papadopoulos, Efstathia Soufleri, Polydoros Giannouris, Ruoyu Xiang, Yan Wang, Lingfei Qian, Jimin Huang, Qianqian Xie, Sophia Ananiadou
cs.AI

초록

그리스가 세계 경제에서 중추적인 역할을 담당하고 있음에도 불구하고, 그리스어의 언어적 복잡성과 도메인 특화 데이터셋의 부족으로 인해 대규모 언어 모델(LLM)은 그리스 금융 맥락에서 충분히 탐구되지 못했습니다. 다국어 금융 자연어 처리(NLP) 분야의 선행 연구들은 상당한 성능 격차를 드러냈지만, 현재까지 전용 그리스 금융 벤치마크나 그리스 특화 금융 LLM은 개발되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 그리스 금융 평가 벤치마크인 Plutus-ben과 그리스 도메인 특화 데이터로 미세 조정된 최초의 그리스 금융 LLM인 Plutus-8B를 소개합니다. Plutus-ben은 그리스어로 된 다섯 가지 핵심 금융 NLP 작업(숫자 및 텍스트 개체명 인식, 질의응답, 추상적 요약, 주제 분류)을 다루어 체계적이고 재현 가능한 LLM 평가를 용이하게 합니다. 이러한 작업을 지원하기 위해, 우리는 전문 그리스어 원어민이 철저히 주석을 달은 세 가지 새로운 고품질 그리스 금융 데이터셋을 제시하고, 기존의 두 가지 리소스를 보강했습니다. Plutus-ben에서 22개의 LLM을 종합적으로 평가한 결과, 그리스 금융 NLP는 언어적 복잡성, 도메인 특화 용어, 금융 추론의 격차로 인해 여전히 도전적인 과제로 남아 있음을 보여줍니다. 이러한 결과는 교차 언어 전이의 한계, 그리스어로 훈련된 모델에서의 금융 전문성 필요성, 그리고 그리스어 텍스트에 금융 LLM을 적용하는 데 따른 어려움을 강조합니다. 우리는 재현 가능한 연구를 촉진하고 그리스 금융 NLP를 발전시키며, 금융 분야에서 더 넓은 다국어 포용성을 조성하기 위해 Plutus-ben, Plutus-8B 및 관련 데이터셋을 공개합니다.
English
Despite Greece's pivotal role in the global economy, large language models (LLMs) remain underexplored for Greek financial context due to the linguistic complexity of Greek and the scarcity of domain-specific datasets. Previous efforts in multilingual financial natural language processing (NLP) have exposed considerable performance disparities, yet no dedicated Greek financial benchmarks or Greek-specific financial LLMs have been developed until now. To bridge this gap, we introduce Plutus-ben, the first Greek Financial Evaluation Benchmark, and Plutus-8B, the pioneering Greek Financial LLM, fine-tuned with Greek domain-specific data. Plutus-ben addresses five core financial NLP tasks in Greek: numeric and textual named entity recognition, question answering, abstractive summarization, and topic classification, thereby facilitating systematic and reproducible LLM assessments. To underpin these tasks, we present three novel, high-quality Greek financial datasets, thoroughly annotated by expert native Greek speakers, augmented by two existing resources. Our comprehensive evaluation of 22 LLMs on Plutus-ben reveals that Greek financial NLP remains challenging due to linguistic complexity, domain-specific terminology, and financial reasoning gaps. These findings underscore the limitations of cross-lingual transfer, the necessity for financial expertise in Greek-trained models, and the challenges of adapting financial LLMs to Greek text. We release Plutus-ben, Plutus-8B, and all associated datasets publicly to promote reproducible research and advance Greek financial NLP, fostering broader multilingual inclusivity in finance.

Summary

AI-Generated Summary

PDF342February 27, 2025