Ebisu: Benchmarking von Large Language Models im japanischen Finanzwesen

Zusammenfassung

Der japanische Finanzsektor vereint eine agglutinierende, kopffinale Sprachstruktur, gemischte Schriftsysteme und hochkontextuelle Kommunikationsnormen, die auf indirekte Ausdrucksweisen und implizite Verpflichtungen angewiesen sind, was eine erhebliche Herausforderung für große Sprachmodelle (LLMs) darstellt. Wir stellen Ebisu vor, einen Benchmark für das native Verständnis der japanischen Finanzsprache, der zwei linguistisch und kulturell fundierte, von Experten annotierte Aufgaben umfasst: JF-ICR, das die Erkennung impliziter Verpflichtungen und Ablehnungen in investororientierten Frage-Antwort-Szenarien bewertet, und JF-TE, das die hierarchische Extraktion und Rangfolge verschachtelter Finanzbegriffe aus professionellen Offenlegungen prüft. Wir evaluieren eine Vielzahl von Open-Source- und proprietären LLMs, darunter allgemeine, japanisch-adaptierte und finanzspezifische Modelle. Die Ergebnisse zeigen, dass selbst modernste Systeme bei beiden Aufgaben Schwierigkeiten haben. Während größere Modelle nur begrenzte Verbesserungen bringen, führt sprach- und domainspezifische Anpassung nicht zuverlässig zu besserer Leistung, sodass erhebliche Lücken bestehen bleiben. Ebisu bietet einen fokussierten Benchmark für die Weiterentwicklung linguistisch und kulturell fundierter Finanz-NLP. Alle Datensätze und Auswertungsskripte sind öffentlich zugänglich.

English

Japanese finance combines agglutinative, head-final linguistic structure, mixed writing systems, and high-context communication norms that rely on indirect expression and implicit commitment, posing a substantial challenge for LLMs. We introduce Ebisu, a benchmark for native Japanese financial language understanding, comprising two linguistically and culturally grounded, expert-annotated tasks: JF-ICR, which evaluates implicit commitment and refusal recognition in investor-facing Q&A, and JF-TE, which assesses hierarchical extraction and ranking of nested financial terminology from professional disclosures. We evaluate a diverse set of open-source and proprietary LLMs spanning general-purpose, Japanese-adapted, and financial models. Results show that even state-of-the-art systems struggle on both tasks. While increased model scale yields limited improvements, language- and domain-specific adaptation does not reliably improve performance, leaving substantial gaps unresolved. Ebisu provides a focused benchmark for advancing linguistically and culturally grounded financial NLP. All datasets and evaluation scripts are publicly released.

Ebisu: Benchmarking von Large Language Models im japanischen Finanzwesen

Ebisu: Benchmarking Large Language Models in Japanese Finance

Zusammenfassung

Support