BizFinBench.v2: Унифицированный двурежимный двуязычный бенчмарк для экспертного уровня согласования финансовых компетенций
BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment
January 10, 2026
Авторы: Xin Guo, Rongjunchen Zhang, Guilong Lu, Xuntao Guo, Shuai Jia, Zhi Yang, Liwen Zhang
cs.AI
Аннотация
Крупные языковые модели претерпели стремительную эволюцию, став ключевой технологией для интеллектуализации финансовых операций. Однако существующие бенчмарки часто ограничены такими недостатками, как опора на синтетические или общецелевые выборки и фокус на единичных офлайн-статичных сценариях. Как следствие, они не соответствуют требованиям к аутентичности и оперативности в финансовых сервисах, что приводит к значительному разрыву между результатами бенчмарков и реальной эффективностью. Для решения этой проблемы мы представляем BizFinBench.v2 — первый масштабный оценочный бенчмарк, основанный на реальных бизнес-данных фондовых рынков Китая и США с интеграцией онлайн-оценки. Мы провели кластерный анализ реальных пользовательских запросов с финансовых платформ, сформировав восемь базовых задач и две онлайн-задачи в четырёх ключевых бизнес-сценариях, что в сумме составило 29 578 экспертных вопросо-ответных пар. Результаты экспериментов показывают, что ChatGPT-5 демонстрирует выдающуюся точность в 61,5% по основным задачам, хотя сохраняется значительный разрыв с финансовыми экспертами; в онлайн-задачах DeepSeek-R1 превосходит все другие коммерческие LLM. Анализ ошибок дополнительно выявляет конкретные пробелы в возможностях существующих моделей в контексте практических финансовых операций. BizFinBench.v2 преодолевает ограничения текущих бенчмарков, обеспечивая бизнес-ориентированную декомпозицию финансовых способностей LLM и создавая точную основу для оценки эффективности массового внедрения языковых моделей в финансовой сфере. Данные и код доступны по адресу https://github.com/HiThink-Research/BizFinBench.v2.
English
Large language models have undergone rapid evolution, emerging as a pivotal technology for intelligence in financial operations. However, existing benchmarks are often constrained by pitfalls such as reliance on simulated or general-purpose samples and a focus on singular, offline static scenarios. Consequently, they fail to align with the requirements for authenticity and real-time responsiveness in financial services, leading to a significant discrepancy between benchmark performance and actual operational efficacy. To address this, we introduce BizFinBench.v2, the first large-scale evaluation benchmark grounded in authentic business data from both Chinese and U.S. equity markets, integrating online assessment. We performed clustering analysis on authentic user queries from financial platforms, resulting in eight fundamental tasks and two online tasks across four core business scenarios, totaling 29,578 expert-level Q&A pairs. Experimental results demonstrate that ChatGPT-5 achieves a prominent 61.5% accuracy in main tasks, though a substantial gap relative to financial experts persists; in online tasks, DeepSeek-R1 outperforms all other commercial LLMs. Error analysis further identifies the specific capability deficiencies of existing models within practical financial business contexts. BizFinBench.v2 transcends the limitations of current benchmarks, achieving a business-level deconstruction of LLM financial capabilities and providing a precise basis for evaluating efficacy in the widespread deployment of LLMs within the financial domain. The data and code are available at https://github.com/HiThink-Research/BizFinBench.v2.