Ebisu: Valutazione comparativa dei Modelli Linguistici di Grandi Dimensioni nel settore finanziario giapponese

Abstract

La finanza giapponese combina una struttura linguistica agglutinante e testa-finale, sistemi di scrittura misti e norme comunicative ad alto contesto che si basano su espressioni indirette e impegni impliciti, rappresentando una sfida significativa per i LLM. Presentiamo Ebisu, un benchmark per la comprensione linguistica finanziaria nativa giapponese, che comprende due task fondati su basi linguistiche e culturali, annotati da esperti: JF-ICR, che valuta il riconoscimento di impegni impliciti e rifiuti in domande e risposte con gli investitori, e JF-TE, che valuta l'estrazione gerarchica e la classificazione di terminologia finanziaria nidificata da documenti professionali. Valutiamo un insieme diversificato di LLM open-source e proprietari, che includono modelli generici, adattati al giapponese e finanziari. I risultati mostrano che anche i sistemi più all'avanguardia faticano in entrambi i task. Sebbene l'aumento della scala del modello produca miglioramenti limitati, l'adattamento linguistico e di dominio specifico non migliora in modo affidabile le prestazioni, lasciando sostanziali lacune irrisolte. Ebisu fornisce un benchmark mirato per far progredire l'NLP finanziario fondato su basi linguistiche e culturali. Tutti i dataset e gli script di valutazione sono rilasciati pubblicamente.

English

Japanese finance combines agglutinative, head-final linguistic structure, mixed writing systems, and high-context communication norms that rely on indirect expression and implicit commitment, posing a substantial challenge for LLMs. We introduce Ebisu, a benchmark for native Japanese financial language understanding, comprising two linguistically and culturally grounded, expert-annotated tasks: JF-ICR, which evaluates implicit commitment and refusal recognition in investor-facing Q&A, and JF-TE, which assesses hierarchical extraction and ranking of nested financial terminology from professional disclosures. We evaluate a diverse set of open-source and proprietary LLMs spanning general-purpose, Japanese-adapted, and financial models. Results show that even state-of-the-art systems struggle on both tasks. While increased model scale yields limited improvements, language- and domain-specific adaptation does not reliably improve performance, leaving substantial gaps unresolved. Ebisu provides a focused benchmark for advancing linguistically and culturally grounded financial NLP. All datasets and evaluation scripts are publicly released.

Ebisu: Valutazione comparativa dei Modelli Linguistici di Grandi Dimensioni nel settore finanziario giapponese

Ebisu: Benchmarking Large Language Models in Japanese Finance

Abstract

Support