ChatPaper.aiChatPaper

BizFinBench.v2: Un Punto de Referencia Bilingüe Unificado de Doble Modalidad para la Alineación de Capacidades Financieras a Nivel Experto

BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment

January 10, 2026
Autores: Xin Guo, Rongjunchen Zhang, Guilong Lu, Xuntao Guo, Shuai Jia, Zhi Yang, Liwen Zhang
cs.AI

Resumen

Los grandes modelos de lenguaje han experimentado una rápida evolución, emergiendo como una tecnología pivotal para la inteligencia en operaciones financieras. Sin embargo, los puntos de referencia existentes suelen estar limitados por inconvenientes como la dependencia de muestras simuladas o de propósito general y un enfoque en escenarios estáticos, singulares y fuera de línea. En consecuencia, no logran alinearse con los requisitos de autenticidad y capacidad de respuesta en tiempo real de los servicios financieros, lo que genera una discrepancia significativa entre el rendimiento en los benchmarks y la eficacia operativa real. Para abordar esto, presentamos BizFinBench.v2, el primer punto de referencia de evaluación a gran escala basado en datos empresariales auténticos de los mercados de valores de China y EE. UU., integrando evaluación en línea. Realizamos un análisis de conglomerados sobre consultas de usuarios reales de plataformas financieras, resultando en ocho tareas fundamentales y dos tareas en línea a través de cuatro escenarios empresariales centrales, totalizando 29,578 pares de preguntas y respuestas de nivel experto. Los resultados experimentales demuestran que ChatGPT-5 alcanza un prominente 61.5% de precisión en las tareas principales, aunque persiste una brecha sustancial en comparación con los expertos financieros; en las tareas en línea, DeepSeek-R1 supera a todos los demás LLMs comerciales. El análisis de errores identifica además las deficiencias específicas de capacidad de los modelos existentes dentro de contextos prácticos de negocio financiero. BizFinBench.v2 trasciende las limitaciones de los benchmarks actuales, logrando una deconstrucción a nivel de negocio de las capacidades financieras de los LLM y proporcionando una base precisa para evaluar la eficacia en el despliegue generalizado de LLM dentro del dominio financiero. Los datos y el código están disponibles en https://github.com/HiThink-Research/BizFinBench.v2.
English
Large language models have undergone rapid evolution, emerging as a pivotal technology for intelligence in financial operations. However, existing benchmarks are often constrained by pitfalls such as reliance on simulated or general-purpose samples and a focus on singular, offline static scenarios. Consequently, they fail to align with the requirements for authenticity and real-time responsiveness in financial services, leading to a significant discrepancy between benchmark performance and actual operational efficacy. To address this, we introduce BizFinBench.v2, the first large-scale evaluation benchmark grounded in authentic business data from both Chinese and U.S. equity markets, integrating online assessment. We performed clustering analysis on authentic user queries from financial platforms, resulting in eight fundamental tasks and two online tasks across four core business scenarios, totaling 29,578 expert-level Q&A pairs. Experimental results demonstrate that ChatGPT-5 achieves a prominent 61.5% accuracy in main tasks, though a substantial gap relative to financial experts persists; in online tasks, DeepSeek-R1 outperforms all other commercial LLMs. Error analysis further identifies the specific capability deficiencies of existing models within practical financial business contexts. BizFinBench.v2 transcends the limitations of current benchmarks, achieving a business-level deconstruction of LLM financial capabilities and providing a precise basis for evaluating efficacy in the widespread deployment of LLMs within the financial domain. The data and code are available at https://github.com/HiThink-Research/BizFinBench.v2.
PDF92January 16, 2026