ChatPaper.aiChatPaper

Ebisu: Valutazione comparativa dei Modelli Linguistici di Grandi Dimensioni nel settore finanziario giapponese

Ebisu: Benchmarking Large Language Models in Japanese Finance

February 1, 2026
Autori: Xueqing Peng, Ruoyu Xiang, Fan Zhang, Mingzi Song, Mingyang Jiang, Yan Wang, Lingfei Qian, Taiki Hara, Yuqing Guo, Jimin Huang, Junichi Tsujii, Sophia Ananiadou
cs.AI

Abstract

La finanza giapponese combina una struttura linguistica agglutinante e testa-finale, sistemi di scrittura misti e norme comunicative ad alto contesto che si basano su espressioni indirette e impegni impliciti, rappresentando una sfida significativa per i LLM. Presentiamo Ebisu, un benchmark per la comprensione linguistica finanziaria nativa giapponese, che comprende due task fondati su basi linguistiche e culturali, annotati da esperti: JF-ICR, che valuta il riconoscimento di impegni impliciti e rifiuti in domande e risposte con gli investitori, e JF-TE, che valuta l'estrazione gerarchica e la classificazione di terminologia finanziaria nidificata da documenti professionali. Valutiamo un insieme diversificato di LLM open-source e proprietari, che includono modelli generici, adattati al giapponese e finanziari. I risultati mostrano che anche i sistemi più all'avanguardia faticano in entrambi i task. Sebbene l'aumento della scala del modello produca miglioramenti limitati, l'adattamento linguistico e di dominio specifico non migliora in modo affidabile le prestazioni, lasciando sostanziali lacune irrisolte. Ebisu fornisce un benchmark mirato per far progredire l'NLP finanziario fondato su basi linguistiche e culturali. Tutti i dataset e gli script di valutazione sono rilasciati pubblicamente.
English
Japanese finance combines agglutinative, head-final linguistic structure, mixed writing systems, and high-context communication norms that rely on indirect expression and implicit commitment, posing a substantial challenge for LLMs. We introduce Ebisu, a benchmark for native Japanese financial language understanding, comprising two linguistically and culturally grounded, expert-annotated tasks: JF-ICR, which evaluates implicit commitment and refusal recognition in investor-facing Q&A, and JF-TE, which assesses hierarchical extraction and ranking of nested financial terminology from professional disclosures. We evaluate a diverse set of open-source and proprietary LLMs spanning general-purpose, Japanese-adapted, and financial models. Results show that even state-of-the-art systems struggle on both tasks. While increased model scale yields limited improvements, language- and domain-specific adaptation does not reliably improve performance, leaving substantial gaps unresolved. Ebisu provides a focused benchmark for advancing linguistically and culturally grounded financial NLP. All datasets and evaluation scripts are publicly released.
PDF172March 12, 2026