BizFinBench: Бизнес-ориентированный реальный финансовый эталон для оценки языковых моделей (LLM)

Аннотация

Крупные языковые модели демонстрируют высокие результаты в общих задачах, однако оценка их надежности в областях, требующих высокой логической точности, таких как финансы, право и здравоохранение, остается сложной задачей. Для решения этой проблемы мы представляем BizFinBench — первый бенчмарк, специально разработанный для оценки языковых моделей в реальных финансовых приложениях. BizFinBench включает 6 781 тщательно аннотированных запросов на китайском языке, охватывающих пять измерений: численные расчеты, логическое рассуждение, извлечение информации, распознавание прогнозов и ответы на вопросы на основе знаний, сгруппированных в девять детализированных категорий. Бенчмарк включает как объективные, так и субъективные метрики. Мы также представляем IteraJudge — новый метод оценки языковых моделей, который снижает предвзятость, когда модели используются в качестве оценщиков в объективных метриках. Мы протестировали 25 моделей, включая как проприетарные, так и открытые системы. Масштабные эксперименты показывают, что ни одна модель не доминирует во всех задачах. Наша оценка выявляет различные паттерны способностей: (1) В численных расчетах лидируют Claude-3.5-Sonnet (63.18) и DeepSeek-R1 (64.04), в то время как меньшие модели, такие как Qwen2.5-VL-3B (15.92), значительно отстают; (2) В логическом рассуждении доминируют проприетарные модели (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), а открытые модели отстают до 19.49 баллов; (3) В извлечении информации разброс результатов наибольший: DeepSeek-R1 набирает 71.46, а Qwen3-1.7B — 11.23; (4) В распознавании прогнозов вариативность минимальна, при этом лучшие модели набирают от 39.16 до 50.00. Мы обнаружили, что, хотя современные языковые модели успешно справляются с рутинными финансовыми запросами, они испытывают трудности в сложных сценариях, требующих межконцептуального рассуждения. BizFinBench предлагает строгий, ориентированный на бизнес бенчмарк для будущих исследований. Код и набор данных доступны по адресу https://github.com/HiThink-Research/BizFinBench.

English

Large language models excel in general tasks, yet assessing their reliability in logic-heavy, precision-critical domains like finance, law, and healthcare remains challenging. To address this, we introduce BizFinBench, the first benchmark specifically designed to evaluate LLMs in real-world financial applications. BizFinBench consists of 6,781 well-annotated queries in Chinese, spanning five dimensions: numerical calculation, reasoning, information extraction, prediction recognition, and knowledge-based question answering, grouped into nine fine-grained categories. The benchmark includes both objective and subjective metrics. We also introduce IteraJudge, a novel LLM evaluation method that reduces bias when LLMs serve as evaluators in objective metrics. We benchmark 25 models, including both proprietary and open-source systems. Extensive experiments show that no model dominates across all tasks. Our evaluation reveals distinct capability patterns: (1) In Numerical Calculation, Claude-3.5-Sonnet (63.18) and DeepSeek-R1 (64.04) lead, while smaller models like Qwen2.5-VL-3B (15.92) lag significantly; (2) In Reasoning, proprietary models dominate (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), with open-source models trailing by up to 19.49 points; (3) In Information Extraction, the performance spread is the largest, with DeepSeek-R1 scoring 71.46, while Qwen3-1.7B scores 11.23; (4) In Prediction Recognition, performance variance is minimal, with top models scoring between 39.16 and 50.00. We find that while current LLMs handle routine finance queries competently, they struggle with complex scenarios requiring cross-concept reasoning. BizFinBench offers a rigorous, business-aligned benchmark for future research. The code and dataset are available at https://github.com/HiThink-Research/BizFinBench.

BizFinBench: Бизнес-ориентированный реальный финансовый эталон для оценки языковых моделей (LLM)

BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs

Аннотация

Support