Ebisu: Het benchmarken van grote taalmodelmodellen in de Japanse financiële sector

Samenvatting

Het Japanse financiële taalgebruik combineert een agglutinerende, hoofd-finale linguïstische structuur, gemengde schriftsystemen en communicatienormen met een hoge contextafhankelijkheid die steunt op indirecte expressie en impliciete toezeggingen. Dit vormt een aanzienlijke uitdaging voor grote taalmodelen (LLM's). Wij introduceren Ebisu, een benchmark voor het begrip van authentiek Japans financieel taalgebruik, bestaande uit twee linguïstisch en cultureel gefundeerde, door experts geannoteerde taken: JF-ICR, dat de herkenning van impliciete toezeggingen en weigeringen evalueert in vraag-en-antwoordscenario's voor investeerders, en JF-TE, dat de hiërarchische extractie en rangschikking van geneste financiële terminologie uit professionele openbaarmakingen beoordeelt. Wij evalueren een diverse reeks open-source en propriëtaire LLM's, variërend van algemene modellen tot modellen aangepast voor het Japans en financiële domein. Resultaten tonen aan dat zelfs state-of-the-art systemen moeite hebben met beide taken. Hoewel een grotere modelschaal beperkte verbeteringen oplevert, leidt aanpassing voor specifieke talen en domeinen niet tot een betrouwbare prestatieverbetering, waardoor aanzienlijke hiaten onopgelost blijven. Ebisu biedt een gerichte benchmark voor de vooruitgang van linguïstisch en cultureel gefundeerde financiële NLP. Alle datasets en evaluatiescripts zijn openbaar vrijgegeven.

English

Japanese finance combines agglutinative, head-final linguistic structure, mixed writing systems, and high-context communication norms that rely on indirect expression and implicit commitment, posing a substantial challenge for LLMs. We introduce Ebisu, a benchmark for native Japanese financial language understanding, comprising two linguistically and culturally grounded, expert-annotated tasks: JF-ICR, which evaluates implicit commitment and refusal recognition in investor-facing Q&A, and JF-TE, which assesses hierarchical extraction and ranking of nested financial terminology from professional disclosures. We evaluate a diverse set of open-source and proprietary LLMs spanning general-purpose, Japanese-adapted, and financial models. Results show that even state-of-the-art systems struggle on both tasks. While increased model scale yields limited improvements, language- and domain-specific adaptation does not reliably improve performance, leaving substantial gaps unresolved. Ebisu provides a focused benchmark for advancing linguistically and culturally grounded financial NLP. All datasets and evaluation scripts are publicly released.

Ebisu: Het benchmarken van grote taalmodelmodellen in de Japanse financiële sector

Ebisu: Benchmarking Large Language Models in Japanese Finance

Samenvatting

Support