ChatPaper.aiChatPaper

FinForge: Генерация полусинтетических финансовых эталонных тестов

FinForge: Semi-Synthetic Financial Benchmark Generation

January 11, 2026
Авторы: Glenn Matlin, Akhil Theerthala, Anant Gupta, Anirudh JM, Rayan Castilla, Yi Mei Ng, Sudheer Chava
cs.AI

Аннотация

Оценка языковых моделей (ЯМ) в специализированных, критически важных областях, таких как финансы, остается серьезной проблемой из-за нехватки открытых, качественных и предметно-ориентированных наборов данных. Существующие общецелевые бенчмарки обеспечивают широкий охват, но им не хватает глубины и предметной достоверности, необходимых для оценки способностей ЯМ к решению реальных финансовых задач, которые требуют как концептуального понимания, так и количественной строгости. Чтобы восполнить этот пробел, мы представляем FinForge — масштабируемый, полусинтетический конвейер для создания предметно-ориентированных оценочных бенчмарков в области финансов путем сочетания экспертного курирования данных и контролируемого синтеза на основе ЯМ. FinForge объединяет ручное и программное построение корпуса из авторитетных финансовых источников со структурированной генерацией вопросов и их валидацией с использованием модели Gemini 2.5 Flash. Чтобы продемонстрировать эффективность конвейера, мы создали FinForge-5k — снимок бенчмарка, содержащий более 5000 верифицированных человеком вопросно-ответных пар по 11 финансовым поддоменам, полученных на основе курированного корпуса из 100 000 проверенных документов общим объемом 143 млн токенов. Оценка современных моделей с открытым и закрытым исходным кодом на FinForge-5k выявила значительные различия в финансовых рассуждениях, при этом лучшие модели достигают уровня точности около 80%. Эти результаты подчеркивают полезность фреймворка для диагностики текущих ограничений моделей и направления будущих улучшений в области финансовой компетентности. Весь код и данные доступны по адресу https://github.com/gtfintechlab/FinForge.
English
Evaluating Language Models (LMs) in specialized, high-stakes domains such as finance remains a significant challenge due to the scarcity of open, high-quality, and domain-specific datasets. Existing general-purpose benchmarks provide broad coverage but lack the depth and domain fidelity needed to assess LMs' capabilities for real-world financial reasoning, which requires both conceptual understanding and quantitative rigor. To address this gap, we introduce FinForge, a scalable, semi-synthetic pipeline for constructing finance-specific evaluation benchmarks through a hybrid of expert-guided data curation and controlled LM-based synthesis. FinForge combines manual and programmatic corpus construction from authoritative financial sources with structured question generation and validation using Gemini 2.5 Flash. To demonstrate the pipeline's efficacy, we produce FinForge-5k, a snapshot benchmark comprising over 5,000 human-validated question-answer pairs across 11 finance subdomains, derived from a curated corpus of 100,000 verified documents totaling 143M tokens. Evaluation of state-of-the-art open-source and closed-source models on FinForge-5k reveals significant differences in financial reasoning, with leading models achieving accuracy levels near 80%. These findings underscore the framework's utility for diagnosing current model limitations and guiding future improvements in financial domain competence. All code and data are available at https://github.com/gtfintechlab/FinForge.
PDF13January 31, 2026