ChatPaper.aiChatPaper

에비스: 일본 금융 분야에서의 대규모 언어 모델 성능 평가

Ebisu: Benchmarking Large Language Models in Japanese Finance

February 1, 2026
저자: Xueqing Peng, Ruoyu Xiang, Fan Zhang, Mingzi Song, Mingyang Jiang, Yan Wang, Lingfei Qian, Taiki Hara, Yuqing Guo, Jimin Huang, Junichi Tsujii, Sophia Ananiadou
cs.AI

초록

일본 금융 언어는 교착어적 특성과 주요어 후치 구조, 혼합 표기 체계, 간접적 표현과 암묵적 약속에 의존하는 고맥락 의사소통 규범을 결합하고 있어 LLM에게 상당한 도전 과제로 작용합니다. 본 연구에서는 일본 현지 금융 언어 이해를 위한 벤치마크인 Ebisu를 소개합니다. 이는 언어적·문화적 기반을 갖춘 전문가 주해 작업 두 가지로 구성됩니다: 투자자 대상 Q&A에서 암묵적 약속과 거부 인식을 평가하는 JF-ICR, 전문 공시 자료에서 중첩된 금융 용어의 계층적 추출 및 순위 평가를 수행하는 JF-TE입니다. 우리는 일반용, 일본어 적응형, 금융 특화 모델을 아우르는 다양한 오픈소스 및 상용 LLM을 평가했습니다. 결과에 따르면 최첨단 시스템조차 두 작업 모두에서 어려움을 겪는 것으로 나타났습니다. 모델 규모 확대는 제한된 개선만을 가져왔으며, 언어 및 도메인 특화 적응도 성능 향상을 안정적으로 보장하지 못해 상당한 격차가 해결되지 않은 채 남아 있습니다. Ebisu는 언어적·문화적 기반을 둔 금융 NLP 발전을 위한 집중적 벤치마크를 제공합니다. 모든 데이터세트와 평가 스크립트는 공개되었습니다.
English
Japanese finance combines agglutinative, head-final linguistic structure, mixed writing systems, and high-context communication norms that rely on indirect expression and implicit commitment, posing a substantial challenge for LLMs. We introduce Ebisu, a benchmark for native Japanese financial language understanding, comprising two linguistically and culturally grounded, expert-annotated tasks: JF-ICR, which evaluates implicit commitment and refusal recognition in investor-facing Q&A, and JF-TE, which assesses hierarchical extraction and ranking of nested financial terminology from professional disclosures. We evaluate a diverse set of open-source and proprietary LLMs spanning general-purpose, Japanese-adapted, and financial models. Results show that even state-of-the-art systems struggle on both tasks. While increased model scale yields limited improvements, language- and domain-specific adaptation does not reliably improve performance, leaving substantial gaps unresolved. Ebisu provides a focused benchmark for advancing linguistically and culturally grounded financial NLP. All datasets and evaluation scripts are publicly released.
PDF172February 7, 2026