Ebisu: Evaluación de Modelos de Lenguaje a Gran Escala en Finanzas Japonesas
Ebisu: Benchmarking Large Language Models in Japanese Finance
February 1, 2026
Autores: Xueqing Peng, Ruoyu Xiang, Fan Zhang, Mingzi Song, Mingyang Jiang, Yan Wang, Lingfei Qian, Taiki Hara, Yuqing Guo, Jimin Huang, Junichi Tsujii, Sophia Ananiadou
cs.AI
Resumen
La financiación japonesa combina una estructura lingüística aglutinante y de núcleo final, sistemas de escritura mixtos y normas de comunicación de alto contexto que dependen de la expresión indirecta y el compromiso implícito, lo que supone un desafío sustancial para los LLM. Presentamos Ebisu, un benchmark para la comprensión del lenguaje financiero nativo japonés, que comprende dos tareas fundamentadas lingüística y culturalmente, y anotadas por expertos: JF-ICR, que evalúa el reconocimiento del compromiso implícito y la negativa en preguntas y respuestas dirigidas a inversores, y JF-TE, que valora la extracción jerárquica y clasificación de terminología financiera anidada en divulgaciones profesionales. Evaluamos un conjunto diverso de LLM de código abierto y propietarios que abarcan modelos de propósito general, adaptados al japonés y financieros. Los resultados muestran que incluso los sistemas más avanzados tienen dificultades en ambas tareas. Si bien el aumento de escala del modelo produce mejoras limitadas, la adaptación específica por idioma y dominio no mejora consistentemente el rendimiento, dejando brechas sustanciales sin resolver. Ebisu proporciona un benchmark focalizado para avanzar en la PLN financiera fundamentada lingüística y culturalmente. Todos los conjuntos de datos y scripts de evaluación se han publicado públicamente.
English
Japanese finance combines agglutinative, head-final linguistic structure, mixed writing systems, and high-context communication norms that rely on indirect expression and implicit commitment, posing a substantial challenge for LLMs. We introduce Ebisu, a benchmark for native Japanese financial language understanding, comprising two linguistically and culturally grounded, expert-annotated tasks: JF-ICR, which evaluates implicit commitment and refusal recognition in investor-facing Q&A, and JF-TE, which assesses hierarchical extraction and ranking of nested financial terminology from professional disclosures. We evaluate a diverse set of open-source and proprietary LLMs spanning general-purpose, Japanese-adapted, and financial models. Results show that even state-of-the-art systems struggle on both tasks. While increased model scale yields limited improvements, language- and domain-specific adaptation does not reliably improve performance, leaving substantial gaps unresolved. Ebisu provides a focused benchmark for advancing linguistically and culturally grounded financial NLP. All datasets and evaluation scripts are publicly released.