Эбису: Оценка возможностей больших языковых моделей в сфере японских финансов
Ebisu: Benchmarking Large Language Models in Japanese Finance
February 1, 2026
Авторы: Xueqing Peng, Ruoyu Xiang, Fan Zhang, Mingzi Song, Mingyang Jiang, Yan Wang, Lingfei Qian, Taiki Hara, Yuqing Guo, Jimin Huang, Junichi Tsujii, Sophia Ananiadou
cs.AI
Аннотация
Японский финансовый язык сочетает агглютинативную, правостороннюю лингвистическую структуру, смешанные системы письма и нормы коммуникации с высоким контекстом, основанные на косвенном выражении и неявных обязательствах, что создает серьезные трудности для больших языковых моделей (LLM). Мы представляем Ebisu — эталонный тест для оценки понимания японского финансового языка в его естественной форме, состоящий из двух лингвистически и культурно обоснованных, экспертно размеченных задач: JF-ICR, который оценивает распознавание неявных обязательств и отказов в вопросах и ответах для инвесторов, и JF-TE, который проверяет иерархическое извлечение и ранжирование вложенной финансовой терминологии из профессиональных раскрытий. Мы оцениваем разнообразный набор открытых и проприетарных LLM, включая модели общего назначения, адаптированные для японского языка и финансовые модели. Результаты показывают, что даже передовые системы испытывают затруднения с обеими задачами. Хотя увеличение масштаба модели дает ограниченное улучшение, языковая и предметно-ориентированная адаптация не обеспечивает стабильного роста производительности, оставляя существенные пробелы нерешенными. Ebisu предоставляет целенаправленный эталон для развития финансового NLP с учетом лингвистических и культурных особенностей. Все наборы данных и скрипты для оценки находятся в открытом доступе.
English
Japanese finance combines agglutinative, head-final linguistic structure, mixed writing systems, and high-context communication norms that rely on indirect expression and implicit commitment, posing a substantial challenge for LLMs. We introduce Ebisu, a benchmark for native Japanese financial language understanding, comprising two linguistically and culturally grounded, expert-annotated tasks: JF-ICR, which evaluates implicit commitment and refusal recognition in investor-facing Q&A, and JF-TE, which assesses hierarchical extraction and ranking of nested financial terminology from professional disclosures. We evaluate a diverse set of open-source and proprietary LLMs spanning general-purpose, Japanese-adapted, and financial models. Results show that even state-of-the-art systems struggle on both tasks. While increased model scale yields limited improvements, language- and domain-specific adaptation does not reliably improve performance, leaving substantial gaps unresolved. Ebisu provides a focused benchmark for advancing linguistically and culturally grounded financial NLP. All datasets and evaluation scripts are publicly released.