ChatPaper.aiChatPaper

BizFinBench.v2: Ein einheitlicher, zweisprachiger Benchmark mit dualem Modus zur Ausrichtung finanzieller Fähigkeiten auf Expertenniveau

BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment

January 10, 2026
papers.authors: Xin Guo, Rongjunchen Zhang, Guilong Lu, Xuntao Guo, Shuai Jia, Zhi Yang, Liwen Zhang
cs.AI

papers.abstract

Große Sprachmodelle haben eine rasante Entwicklung durchlaufen und sich zu einer Schlüsseltechnologie für intelligente Finanzoperationen entwickelt. Allerdings sind bestehende Benchmarks oft durch Fallstricke wie die Abhängigkeit von simulierten oder allgemeinen Stichproben und die Fokussierung auf singuläre, offline-statische Szenarien eingeschränkt. Folglich entsprechen sie nicht den Anforderungen an Authentizität und Echtzeit-Reaktionsfähigkeit in Finanzdienstleistungen, was zu einer erheblichen Diskrepanz zwischen Benchmark-Leistung und tatsächlicher operationeller Effizienz führt. Um dies zu adressieren, stellen wir BizFinBench.v2 vor, den ersten groß angelegten Evaluierungs-Benchmark, der auf authentischen Geschäftsdaten aus chinesischen und US-Aktienmärkten basiert und Online-Bewertung integriert. Wir führten eine Clusteranalyse authentischer Nutzeranfragen von Finanzplattformen durch, was zu acht grundlegenden Aufgaben und zwei Online-Aufgaben in vier Kernanwendungsszenarien führte – insgesamt 29.578 Experten-level Frage-Antwort-Paare. Experimentelle Ergebnisse zeigen, dass ChatGPT-5 eine bemerkenswerte Genauigkeit von 61,5 % in den Hauptaufgaben erreicht, obwohl eine erhebliche Lücke zu Finanzexperten bestehen bleibt; bei Online-Aufgaben übertrifft DeepSeek-R1 alle anderen kommerziellen LLMs. Fehleranalysen identifizieren weiterhin die spezifischen Fähigkeitsdefizite bestehender Modelle in praktischen Finanzgeschäftskontexten. BizFinBench.v2 überwindet die Grenzen aktueller Benchmarks, erreicht eine geschäftsorientierte Dekonstruktion der finanziellen Fähigkeiten von LLMs und bietet eine präzise Grundlage zur Bewertung der Effizienz beim breiten Einsatz von LLMs im Finanzbereich. Die Daten und der Code sind verfügbar unter https://github.com/HiThink-Research/BizFinBench.v2.
English
Large language models have undergone rapid evolution, emerging as a pivotal technology for intelligence in financial operations. However, existing benchmarks are often constrained by pitfalls such as reliance on simulated or general-purpose samples and a focus on singular, offline static scenarios. Consequently, they fail to align with the requirements for authenticity and real-time responsiveness in financial services, leading to a significant discrepancy between benchmark performance and actual operational efficacy. To address this, we introduce BizFinBench.v2, the first large-scale evaluation benchmark grounded in authentic business data from both Chinese and U.S. equity markets, integrating online assessment. We performed clustering analysis on authentic user queries from financial platforms, resulting in eight fundamental tasks and two online tasks across four core business scenarios, totaling 29,578 expert-level Q&A pairs. Experimental results demonstrate that ChatGPT-5 achieves a prominent 61.5% accuracy in main tasks, though a substantial gap relative to financial experts persists; in online tasks, DeepSeek-R1 outperforms all other commercial LLMs. Error analysis further identifies the specific capability deficiencies of existing models within practical financial business contexts. BizFinBench.v2 transcends the limitations of current benchmarks, achieving a business-level deconstruction of LLM financial capabilities and providing a precise basis for evaluating efficacy in the widespread deployment of LLMs within the financial domain. The data and code are available at https://github.com/HiThink-Research/BizFinBench.v2.
PDF92January 16, 2026