Ebisu: Avaliação de Modelos de Linguagem de Grande Porte no Setor Financeiro Japonês

Resumo

O sistema financeiro japonês combina uma estrutura linguística aglutinante e de núcleo final, sistemas de escrita mistos e normas de comunicação de alto contexto que dependem de expressão indireta e compromisso implícito, representando um desafio substancial para LLMs. Apresentamos Ebisu, um benchmark para a compreensão da linguagem financeira nativa japonesa, composto por duas tarefas fundamentadas linguística e culturalmente e anotadas por especialistas: JF-ICR, que avalia o reconhecimento de compromisso implícito e recusa em Q&As voltados a investidores, e JF-TE, que avalia a extração hierárquica e classificação de terminologia financeira aninhada em divulgações profissionais. Avaliamos um conjunto diversificado de LLMs de código aberto e proprietários, abrangendo modelos de uso geral, adaptados ao japonês e financeiros. Os resultados mostram que mesmo sistemas state-of-the-art apresentam dificuldades em ambas as tarefas. Embora o aumento da escala do modelo produza melhorias limitadas, a adaptação específica de idioma e domínio não melhora o desempenho de forma confiável, deixando lacunas substanciais não resolvidas. Ebisu fornece um benchmark focado para avançar o PLN financeiro fundamentado linguística e culturalmente. Todos os conjuntos de dados e scripts de avaliação são disponibilizados publicamente.

English

Japanese finance combines agglutinative, head-final linguistic structure, mixed writing systems, and high-context communication norms that rely on indirect expression and implicit commitment, posing a substantial challenge for LLMs. We introduce Ebisu, a benchmark for native Japanese financial language understanding, comprising two linguistically and culturally grounded, expert-annotated tasks: JF-ICR, which evaluates implicit commitment and refusal recognition in investor-facing Q&A, and JF-TE, which assesses hierarchical extraction and ranking of nested financial terminology from professional disclosures. We evaluate a diverse set of open-source and proprietary LLMs spanning general-purpose, Japanese-adapted, and financial models. Results show that even state-of-the-art systems struggle on both tasks. While increased model scale yields limited improvements, language- and domain-specific adaptation does not reliably improve performance, leaving substantial gaps unresolved. Ebisu provides a focused benchmark for advancing linguistically and culturally grounded financial NLP. All datasets and evaluation scripts are publicly released.