BizFinBench: Un punto de referencia financiero realista y orientado a los negocios para evaluar modelos de lenguaje grandes (LLMs)
BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs
May 26, 2025
Autores: Guilong Lu, Xuntao Guo, Rongjunchen Zhang, Wenqiao Zhu, Ji Liu
cs.AI
Resumen
Los grandes modelos de lenguaje sobresalen en tareas generales, pero evaluar su confiabilidad en dominios que requieren lógica y precisión, como finanzas, derecho y atención médica, sigue siendo un desafío. Para abordar esto, presentamos BizFinBench, el primer punto de referencia diseñado específicamente para evaluar modelos de lenguaje en aplicaciones financieras del mundo real. BizFinBench consta de 6,781 consultas bien anotadas en chino, abarcando cinco dimensiones: cálculo numérico, razonamiento, extracción de información, reconocimiento de predicciones y preguntas basadas en conocimiento, agrupadas en nueve categorías detalladas. El punto de referencia incluye métricas tanto objetivas como subjetivas. También introducimos IteraJudge, un método novedoso de evaluación de modelos de lenguaje que reduce el sesgo cuando estos actúan como evaluadores en métricas objetivas. Evaluamos 25 modelos, incluyendo sistemas propietarios y de código abierto. Experimentos extensos muestran que ningún modelo domina en todas las tareas. Nuestra evaluación revela patrones distintivos de capacidades: (1) En Cálculo Numérico, Claude-3.5-Sonnet (63.18) y DeepSeek-R1 (64.04) lideran, mientras que modelos más pequeños como Qwen2.5-VL-3B (15.92) se quedan significativamente atrás; (2) En Razonamiento, los modelos propietarios dominan (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), con modelos de código abierto rezagados hasta 19.49 puntos; (3) En Extracción de Información, la dispersión de rendimiento es la mayor, con DeepSeek-R1 obteniendo 71.46, mientras que Qwen3-1.7B obtiene 11.23; (4) En Reconocimiento de Predicciones, la variación de rendimiento es mínima, con los mejores modelos obteniendo entre 39.16 y 50.00. Encontramos que, aunque los modelos actuales manejan consultas financieras rutinarias de manera competente, tienen dificultades con escenarios complejos que requieren razonamiento entre conceptos. BizFinBench ofrece un punto de referencia riguroso y alineado con los negocios para futuras investigaciones. El código y el conjunto de datos están disponibles en https://github.com/HiThink-Research/BizFinBench.
English
Large language models excel in general tasks, yet assessing their reliability
in logic-heavy, precision-critical domains like finance, law, and healthcare
remains challenging. To address this, we introduce BizFinBench, the first
benchmark specifically designed to evaluate LLMs in real-world financial
applications. BizFinBench consists of 6,781 well-annotated queries in Chinese,
spanning five dimensions: numerical calculation, reasoning, information
extraction, prediction recognition, and knowledge-based question answering,
grouped into nine fine-grained categories. The benchmark includes both
objective and subjective metrics. We also introduce IteraJudge, a novel LLM
evaluation method that reduces bias when LLMs serve as evaluators in objective
metrics. We benchmark 25 models, including both proprietary and open-source
systems. Extensive experiments show that no model dominates across all tasks.
Our evaluation reveals distinct capability patterns: (1) In Numerical
Calculation, Claude-3.5-Sonnet (63.18) and DeepSeek-R1 (64.04) lead, while
smaller models like Qwen2.5-VL-3B (15.92) lag significantly; (2) In Reasoning,
proprietary models dominate (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), with
open-source models trailing by up to 19.49 points; (3) In Information
Extraction, the performance spread is the largest, with DeepSeek-R1 scoring
71.46, while Qwen3-1.7B scores 11.23; (4) In Prediction Recognition,
performance variance is minimal, with top models scoring between 39.16 and
50.00. We find that while current LLMs handle routine finance queries
competently, they struggle with complex scenarios requiring cross-concept
reasoning. BizFinBench offers a rigorous, business-aligned benchmark for future
research. The code and dataset are available at
https://github.com/HiThink-Research/BizFinBench.Summary
AI-Generated Summary