FinForge: 반합성 금융 벤치마크 생성
FinForge: Semi-Synthetic Financial Benchmark Generation
January 11, 2026
저자: Glenn Matlin, Akhil Theerthala, Anant Gupta, Anirudh JM, Rayan Castilla, Yi Mei Ng, Sudheer Chava
cs.AI
초록
금융과 같은 전문적이고 위험 부담이 높은 분야에서 언어 모델(LM)을 평가하는 것은 공개적이고 고품질이며 도메인 특화된 데이터셋의 부족으로 인해 여전히 큰 과제로 남아 있습니다. 기존의 일반 목적 벤치마크는 광범위한 범위를 제공하지만, 개념적 이해와 정량적 엄밀성을 모두 요구하는 실전 금융 추론을 평가하는 데 필요한 깊이와 도메인 충실도가 부족합니다. 이러한 격차를 해소하기 위해 본 연구는 전문가 주도 데이터 큐레이션과 통제된 LM 기반 합성을 결합한 하이브리드 방식을 통해 금융 특화 평가 벤치마크를 구축하는 확장 가능한 반-합성(semi-synthetic) 파이프라인인 FinForge를 소개합니다. FinForge는 권위 있는 금융 출처로부터 수동 및 프로그램 방식의 코퍼스 구축과 Gemini 2.5 Flash를 활용한 구조화된 질문 생성 및 검증을 결합합니다. 이 파이프라인의 효용성을 입증하기 위해, 총 143M 토큰에 달하는 100,000개의 검증된 문서로 구성된 큐레이션 코퍼스에서 도출된 11개 금융 하위 도메인에 걸친 5,000개 이상의 인간 검증 질문-답변 쌍으로 구성된 스냅샷 벤치마크인 FinForge-5k를 생성했습니다. FinForge-5k를 사용한 최첨단 오픈소스 및 클로즈드소스 모델 평가 결과, 금융 추론 능력에서 현저한 차이가 확인되었으며, 선두 모델들의 정확도는 약 80% 수준에 도달했습니다. 이러한 결과는 현재 모델의 한계를 진단하고 금융 도메인 역량의 미래 개선을指引하는 데 본 프레임워크의 유용성을 강조합니다. 모든 코드와 데이터는 https://github.com/gtfintechlab/FinForge 에서 이용 가능합니다.
English
Evaluating Language Models (LMs) in specialized, high-stakes domains such as finance remains a significant challenge due to the scarcity of open, high-quality, and domain-specific datasets. Existing general-purpose benchmarks provide broad coverage but lack the depth and domain fidelity needed to assess LMs' capabilities for real-world financial reasoning, which requires both conceptual understanding and quantitative rigor. To address this gap, we introduce FinForge, a scalable, semi-synthetic pipeline for constructing finance-specific evaluation benchmarks through a hybrid of expert-guided data curation and controlled LM-based synthesis. FinForge combines manual and programmatic corpus construction from authoritative financial sources with structured question generation and validation using Gemini 2.5 Flash. To demonstrate the pipeline's efficacy, we produce FinForge-5k, a snapshot benchmark comprising over 5,000 human-validated question-answer pairs across 11 finance subdomains, derived from a curated corpus of 100,000 verified documents totaling 143M tokens. Evaluation of state-of-the-art open-source and closed-source models on FinForge-5k reveals significant differences in financial reasoning, with leading models achieving accuracy levels near 80%. These findings underscore the framework's utility for diagnosing current model limitations and guiding future improvements in financial domain competence. All code and data are available at https://github.com/gtfintechlab/FinForge.