Finch: Benchmarking für Finanzen und Rechnungswesen in tabellenkalkulationszentrierten Unternehmensworkflows
Finch: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows
December 15, 2025
papers.authors: Haoyu Dong, Pengkun Zhang, Yan Gao, Xuanyu Dong, Yilin Cheng, Mingzhe Lu, Adina Yakefu, Shuxin Zheng
cs.AI
papers.abstract
Wir stellen einen Finanz- und Rechnungswesen-Benchmark (Finch) vor, um KI-Agenten anhand realer, unternehmensweiter professioneller Workflows zu evaluieren – mit verzahnten Aufgaben wie Dateneingabe, Strukturierung, Formatierung, Websuche, dateiübergreifender Abfrage, Berechnung, Modellierung, Validierung, Übersetzung, Visualisierung und Berichterstattung. Finch stammt aus authentischen Unternehmensarbeitsumgebungen bei Enron (15.000 Tabellenkalkulationen und 500.000 E-Mails von 150 Mitarbeitern) sowie anderen Finanzinstituten und bewahrt die reale Unordnung über multimodale Artefakte (Text, Tabellen, Formeln, Diagramme, Code und Bilder) hinweg, wobei diverse Domänen wie Budgetierung, Handel und Vermögensverwaltung abgedeckt werden.
Wir schlagen einen Workflow-Konstruktionsprozess vor, der KI-gestützte Entdeckung mit Expertenannotation kombiniert: (1) KI-gestützte, expertengeprüfte Ableitung von Workflows aus realen E-Mail-Threads und Versionsverläufen von Tabellenkalkulationsdateien sowie (2) sorgfältige Expertenannotation für Workflows, die über 700 Stunden Arbeit von Domain-Experten erforderte. Dies ergibt 172 zusammengesetzte Workflows mit 384 Aufgaben, die 1.710 Tabellenkalkulationen mit 27 Millionen Zellen sowie PDFs und andere Artefakte umfassen und die inhärent chaotische, langfristige, wissensintensive und kollaborative Natur realer Unternehmensarbeit abbilden.
Wir führen sowohl menschliche als auch automatisierte Evaluationen führender KI-Systeme durch, darunter GPT 5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4 und Qwen 3 Max. GPT 5.1 Pro benötigt insgesamt 48 Stunden, besteht jedoch nur 38,4 % der Workflows, während Claude Sonnet 4.5 lediglich 25,0 % besteht. Umfassende Fallstudien verdeutlichen weiterhin die Herausforderungen, die reale Unternehmensworkflows für KI-Agenten darstellen.
English
We introduce a finance & accounting benchmark (Finch) for evaluating AI agents on real-world, enterprise-grade professional workflows -- interleaving data entry, structuring, formatting, web search, cross-file retrieval, calculation, modeling, validation, translation, visualization, and reporting. Finch is sourced from authentic enterprise workspaces at Enron (15,000 spreadsheets and 500,000 emails from 150 employees) and other financial institutions, preserving in-the-wild messiness across multimodal artifacts (text, tables, formulas, charts, code, and images) and spanning diverse domains such as budgeting, trading, and asset management.
We propose a workflow construction process that combines LLM-assisted discovery with expert annotation: (1) LLM-assisted, expert-verified derivation of workflows from real-world email threads and version histories of spreadsheet files, and (2) meticulous expert annotation for workflows, requiring over 700 hours of domain-expert effort. This yields 172 composite workflows with 384 tasks, involving 1,710 spreadsheets with 27 million cells, along with PDFs and other artifacts, capturing the intrinsically messy, long-horizon, knowledge-intensive, and collaborative nature of real-world enterprise work.
We conduct both human and automated evaluations of frontier AI systems including GPT 5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4, and Qwen 3 Max, and GPT 5.1 Pro spends 48 hours in total yet passes only 38.4% of workflows, while Claude Sonnet 4.5 passes just 25.0%. Comprehensive case studies further surface the challenges that real-world enterprise workflows pose for AI agents.