Finch : Évaluation des performances en finance et comptabilité dans les flux de travail d'entreprise centrés sur les feuilles de calcul
Finch: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows
December 15, 2025
papers.authors: Haoyu Dong, Pengkun Zhang, Yan Gao, Xuanyu Dong, Yilin Cheng, Mingzhe Lu, Adina Yakefu, Shuxin Zheng
cs.AI
papers.abstract
Nous présentons un benchmark financier et comptable (Finch) pour évaluer les agents d'IA sur des flux de travail professionnels réalistes de niveau entreprise — intégrant des activités de saisie de données, de structuration, de mise en forme, de recherche web, d'extraction inter-fichiers, de calcul, de modélisation, de validation, de traduction, de visualisation et de reporting. Finch est constitué à partir d'espaces de travail d'entreprise authentiques provenant d'Enron (15 000 feuilles de calcul et 500 000 e-mails de 150 employés) et d'autres institutions financières, conservant le désordre caractéristique du terrain à travers des artefacts multimodaux (texte, tableaux, formules, graphiques, code et images) et couvrant divers domaines tels que la budgétisation, le trading et la gestion d'actifs.
Nous proposons un processus de construction de flux de travail qui combine une découverte assistée par LLM avec une annotation experte : (1) une dérivation de flux de travail à partir de fils de discussion e-mail réels et de l'historique des versions de fichiers tableurs, vérifiée par des experts et assistée par LLM, et (2) une annotation méticuleuse des flux de travail par des experts, nécessitant plus de 700 heures d'effort de spécialistes du domaine. Ce processus produit 172 flux de travail composites comprenant 384 tâches, impliquant 1 710 feuilles de calcul totalisant 27 millions de cellules, ainsi que des PDFs et autres artefacts, capturant la nature intrinsèquement désordonnée, de long terme, gourmande en connaissances et collaborative du travail en entreprise réel.
Nous menons des évaluations humaines et automatisées des systèmes d'IA de pointe, incluant GPT 5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4 et Qwen 3 Max. GPT 5.1 Pro nécessite 48 heures au total mais ne valide que 38,4 % des flux de travail, tandis que Claude Sonnet 4.5 n'en valide que 25,0 %. Des études de cas approfondies mettent en lumière les défis que les flux de travail enterprise réels posent aux agents d'IA.
English
We introduce a finance & accounting benchmark (Finch) for evaluating AI agents on real-world, enterprise-grade professional workflows -- interleaving data entry, structuring, formatting, web search, cross-file retrieval, calculation, modeling, validation, translation, visualization, and reporting. Finch is sourced from authentic enterprise workspaces at Enron (15,000 spreadsheets and 500,000 emails from 150 employees) and other financial institutions, preserving in-the-wild messiness across multimodal artifacts (text, tables, formulas, charts, code, and images) and spanning diverse domains such as budgeting, trading, and asset management.
We propose a workflow construction process that combines LLM-assisted discovery with expert annotation: (1) LLM-assisted, expert-verified derivation of workflows from real-world email threads and version histories of spreadsheet files, and (2) meticulous expert annotation for workflows, requiring over 700 hours of domain-expert effort. This yields 172 composite workflows with 384 tasks, involving 1,710 spreadsheets with 27 million cells, along with PDFs and other artifacts, capturing the intrinsically messy, long-horizon, knowledge-intensive, and collaborative nature of real-world enterprise work.
We conduct both human and automated evaluations of frontier AI systems including GPT 5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4, and Qwen 3 Max, and GPT 5.1 Pro spends 48 hours in total yet passes only 38.4% of workflows, while Claude Sonnet 4.5 passes just 25.0%. Comprehensive case studies further surface the challenges that real-world enterprise workflows pose for AI agents.