Ebisu: 日本語金融分野における大規模言語モデルのベンチマーキング
Ebisu: Benchmarking Large Language Models in Japanese Finance
February 1, 2026
著者: Xueqing Peng, Ruoyu Xiang, Fan Zhang, Mingzi Song, Mingyang Jiang, Yan Wang, Lingfei Qian, Taiki Hara, Yuqing Guo, Jimin Huang, Junichi Tsujii, Sophia Ananiadou
cs.AI
要旨
日本の金融分野の言語は、膠着的で頭部終端型の言語構造、混合書記体系、間接的表現と暗黙の了解に依存する高コンテクストなコミュニケーション規範を組み合わせた特徴を持ち、大規模言語モデルにとって重大な課題となっている。本論文では、日本語ネイティブの金融言語理解のためのベンチマーク「Ebisu」を提案する。これは、言語的・文化的に根差した専門家注釈付きの2つのタスクで構成される:投資家向け質疑応答における暗黙の了解と拒否認識を評価する「JF-ICR」、専門的な開示文書から階層的に金融用語を抽出・ランク付けする「JF-TE」である。汎用モデル、日本語対応モデル、金融特化モデルなど、多様なオープンソースおよびプロプライエタリな大規模言語モデルを評価した結果、最先端システムでも両タスクにおいて困難を示すことが明らかになった。モデル規模の拡大による改善は限定的であり、言語や分野特化の適応も性能向上を保証せず、大きな課題が未解決のまま残されている。Ebisuは、言語的・文化的に根差した金融自然言語処理の発展に向けた焦点的なベンチマークを提供する。すべてのデータセットと評価スクリプトは公開されている。
English
Japanese finance combines agglutinative, head-final linguistic structure, mixed writing systems, and high-context communication norms that rely on indirect expression and implicit commitment, posing a substantial challenge for LLMs. We introduce Ebisu, a benchmark for native Japanese financial language understanding, comprising two linguistically and culturally grounded, expert-annotated tasks: JF-ICR, which evaluates implicit commitment and refusal recognition in investor-facing Q&A, and JF-TE, which assesses hierarchical extraction and ranking of nested financial terminology from professional disclosures. We evaluate a diverse set of open-source and proprietary LLMs spanning general-purpose, Japanese-adapted, and financial models. Results show that even state-of-the-art systems struggle on both tasks. While increased model scale yields limited improvements, language- and domain-specific adaptation does not reliably improve performance, leaving substantial gaps unresolved. Ebisu provides a focused benchmark for advancing linguistically and culturally grounded financial NLP. All datasets and evaluation scripts are publicly released.