ChatPaper.aiChatPaper

FinForge: Generación de Benchmarks Financieros Semi-Sintéticos

FinForge: Semi-Synthetic Financial Benchmark Generation

January 11, 2026
Autores: Glenn Matlin, Akhil Theerthala, Anant Gupta, Anirudh JM, Rayan Castilla, Yi Mei Ng, Sudheer Chava
cs.AI

Resumen

La evaluación de modelos de lenguaje (LM) en dominios especializados y de alto riesgo, como las finanzas, sigue siendo un desafío significativo debido a la escasez de conjuntos de datos abiertos, de alta calidad y específicos del dominio. Los puntos de referencia de propósito general existentes ofrecen una cobertura amplia, pero carecen de la profundidad y la fidelidad de dominio necesarias para evaluar las capacidades de los LM para el razonamiento financiero del mundo real, que requiere tanto comprensión conceptual como rigor cuantitativo. Para abordar esta brecha, presentamos FinForge, una canalización semi-sintética y escalable para construir puntos de referencia de evaluación específicos de finanzas mediante una combinación de curación de datos guiada por expertos y síntesis controlada basada en LM. FinForge combina la construcción manual y programática de corpus a partir de fuentes financieras autorizadas con la generación y validación estructurada de preguntas utilizando Gemini 2.5 Flash. Para demostrar la eficacia de la canalización, producimos FinForge-5k, un punto de referencia instantáneo que comprende más de 5,000 pares de preguntas y respuestas validadas por humanos en 11 subdominios financieros, derivados de un corpus curado de 100,000 documentos verificados que totalizan 143 millones de tokens. La evaluación de modelos de última generación, tanto de código abierto como cerrado, en FinForge-5k revela diferencias significativas en el razonamiento financiero, con los modelos líderes alcanzando niveles de precisión cercanos al 80%. Estos hallazgos subrayan la utilidad del marco para diagnosticar las limitaciones actuales de los modelos y guiar futuras mejoras en la competencia del dominio financiero. Todo el código y los datos están disponibles en https://github.com/gtfintechlab/FinForge.
English
Evaluating Language Models (LMs) in specialized, high-stakes domains such as finance remains a significant challenge due to the scarcity of open, high-quality, and domain-specific datasets. Existing general-purpose benchmarks provide broad coverage but lack the depth and domain fidelity needed to assess LMs' capabilities for real-world financial reasoning, which requires both conceptual understanding and quantitative rigor. To address this gap, we introduce FinForge, a scalable, semi-synthetic pipeline for constructing finance-specific evaluation benchmarks through a hybrid of expert-guided data curation and controlled LM-based synthesis. FinForge combines manual and programmatic corpus construction from authoritative financial sources with structured question generation and validation using Gemini 2.5 Flash. To demonstrate the pipeline's efficacy, we produce FinForge-5k, a snapshot benchmark comprising over 5,000 human-validated question-answer pairs across 11 finance subdomains, derived from a curated corpus of 100,000 verified documents totaling 143M tokens. Evaluation of state-of-the-art open-source and closed-source models on FinForge-5k reveals significant differences in financial reasoning, with leading models achieving accuracy levels near 80%. These findings underscore the framework's utility for diagnosing current model limitations and guiding future improvements in financial domain competence. All code and data are available at https://github.com/gtfintechlab/FinForge.
PDF13January 31, 2026