Ebisu : Évaluation des grands modèles de langage dans le secteur financier japonais
Ebisu: Benchmarking Large Language Models in Japanese Finance
February 1, 2026
papers.authors: Xueqing Peng, Ruoyu Xiang, Fan Zhang, Mingzi Song, Mingyang Jiang, Yan Wang, Lingfei Qian, Taiki Hara, Yuqing Guo, Jimin Huang, Junichi Tsujii, Sophia Ananiadou
cs.AI
papers.abstract
La finance japonaise combine une structure linguistique agglutinante à tête finale, des systèmes d'écriture mixtes et des normes de communication hautement contextuelles reposant sur l'expression indirecte et l'engagement implicite, ce qui représente un défi substantiel pour les LLM. Nous présentons Ebisu, un benchmark pour la compréhension linguistique financière native japonaise, comprenant deux tâches expertes, ancrées linguistiquement et culturellement : JF-ICR, qui évalue la reconnaissance de l'engagement implicite et du refus dans les questions-réponses destinées aux investisseurs, et JF-TE, qui évalue l'extraction hiérarchique et le classement de terminologies financières imbriquées issues de documents professionnels. Nous évaluons un ensemble varié de LLM open-source et propriétaires, incluant des modèles généralistes, adaptés au japonais et spécialisés en finance. Les résultats montrent que même les systèmes les plus avancés peinent sur les deux tâches. Si l'augmentation de l'échelle des modèles apporte des améliorations limitées, l'adaptation linguistique et domain-specific n'améliore pas de manière fiable les performances, laissant des écarts substantiels non résolus. Ebisu fournit un benchmark ciblé pour faire progresser le TAL financier ancré linguistiquement et culturellement. Tous les jeux de données et scripts d'évaluation sont publiés publiquement.
English
Japanese finance combines agglutinative, head-final linguistic structure, mixed writing systems, and high-context communication norms that rely on indirect expression and implicit commitment, posing a substantial challenge for LLMs. We introduce Ebisu, a benchmark for native Japanese financial language understanding, comprising two linguistically and culturally grounded, expert-annotated tasks: JF-ICR, which evaluates implicit commitment and refusal recognition in investor-facing Q&A, and JF-TE, which assesses hierarchical extraction and ranking of nested financial terminology from professional disclosures. We evaluate a diverse set of open-source and proprietary LLMs spanning general-purpose, Japanese-adapted, and financial models. Results show that even state-of-the-art systems struggle on both tasks. While increased model scale yields limited improvements, language- and domain-specific adaptation does not reliably improve performance, leaving substantial gaps unresolved. Ebisu provides a focused benchmark for advancing linguistically and culturally grounded financial NLP. All datasets and evaluation scripts are publicly released.