FinForge: Geração de Benchmark Financeiro Semi-Sintético

Resumo

A avaliação de Modelos de Linguagem (MLs) em domínios especializados e de alto risco, como as finanças, continua a ser um desafio significativo devido à escassez de conjuntos de dados abertos, de alta qualidade e específicos do domínio. Os benchmarks de propósito geral existentes oferecem uma cobertura ampla, mas carecem da profundidade e fidelidade ao domínio necessárias para avaliar as capacidades dos MLs para o raciocínio financeiro do mundo real, que exige tanto compreensão conceptual como rigor quantitativo. Para colmatar esta lacuna, introduzimos o FinForge, um *pipeline* semi-sintético e escalável para a construção de benchmarks de avaliação específicos para finanças através de uma combinação de curadoria de dados guiada por especialistas e síntese controlada baseada em ML. O FinForge combina a construção manual e programática de um corpus a partir de fontes financeiras autorizadas com a geração e validação estruturada de perguntas utilizando o Gemini 2.5 Flash. Para demonstrar a eficácia do *pipeline*, produzimos o FinForge-5k, um *benchmark* instantâneo que compreende mais de 5.000 pares pergunta-resposta validados manualmente, abrangendo 11 subdomínios financeiros, derivados de um corpus curado de 100.000 documentos verificados, totalizando 143 milhões de *tokens*. A avaliação de modelos *open-source* e *closed-source* de última geração no FinForge-5k revela diferenças significativas no raciocínio financeiro, com os modelos líderes a alcançarem níveis de precisão próximos de 80%. Estes resultados sublinham a utilidade da estrutura para diagnosticar as limitações atuais dos modelos e orientar melhorias futuras na competência no domínio financeiro. Todo o código e dados estão disponíveis em https://github.com/gtfintechlab/FinForge.

English

Evaluating Language Models (LMs) in specialized, high-stakes domains such as finance remains a significant challenge due to the scarcity of open, high-quality, and domain-specific datasets. Existing general-purpose benchmarks provide broad coverage but lack the depth and domain fidelity needed to assess LMs' capabilities for real-world financial reasoning, which requires both conceptual understanding and quantitative rigor. To address this gap, we introduce FinForge, a scalable, semi-synthetic pipeline for constructing finance-specific evaluation benchmarks through a hybrid of expert-guided data curation and controlled LM-based synthesis. FinForge combines manual and programmatic corpus construction from authoritative financial sources with structured question generation and validation using Gemini 2.5 Flash. To demonstrate the pipeline's efficacy, we produce FinForge-5k, a snapshot benchmark comprising over 5,000 human-validated question-answer pairs across 11 finance subdomains, derived from a curated corpus of 100,000 verified documents totaling 143M tokens. Evaluation of state-of-the-art open-source and closed-source models on FinForge-5k reveals significant differences in financial reasoning, with leading models achieving accuracy levels near 80%. These findings underscore the framework's utility for diagnosing current model limitations and guiding future improvements in financial domain competence. All code and data are available at https://github.com/gtfintechlab/FinForge.

FinForge: Geração de Benchmark Financeiro Semi-Sintético

FinForge: Semi-Synthetic Financial Benchmark Generation

Resumo

Support