MultiFinBen: Um Benchmark Multilíngue, Multimodal e Consciente da Dificuldade para Avaliação de LLMs Financeiros

Resumo

Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm acelerado o progresso em PLN financeiro e aplicações, mas os benchmarks existentes ainda se limitam a configurações monolíngues e unimodais, muitas vezes dependendo excessivamente de tarefas simples e falhando em refletir a complexidade da comunicação financeira do mundo real. Apresentamos o MultiFinBen, o primeiro benchmark multilíngue e multimodal projetado para o domínio financeiro global, avaliando LLMs em diversas modalidades (texto, visão, áudio) e contextos linguísticos (monolíngue, bilíngue, multilíngue) em tarefas específicas do domínio. Introduzimos duas novas tarefas, incluindo PolyFiQA-Easy e PolyFiQA-Expert, os primeiros benchmarks financeiros multilíngues que exigem que os modelos realizem raciocínio complexo sobre entradas em idiomas mistos; e EnglishOCR e SpanishOCR, as primeiras tarefas de QA financeiro incorporando OCR, desafiando os modelos a extrair e raciocinar sobre informações de documentos financeiros com texto visual. Além disso, propomos um mecanismo de seleção dinâmico e consciente da dificuldade, e criamos um benchmark compacto e equilibrado, em vez de uma simples agregação de conjuntos de dados existentes. Uma avaliação extensa de 22 modelos state-of-the-art revela que mesmo os modelos mais fortes, apesar de suas capacidades gerais multimodais e multilíngues, lutam dramaticamente quando confrontados com tarefas complexas de cruzamento de idiomas e multimodais no domínio financeiro. O MultiFinBen é lançado publicamente para promover um progresso transparente, reproduzível e inclusivo em estudos e aplicações financeiras.

English

Recent advances in large language models (LLMs) have accelerated progress in financial NLP and applications, yet existing benchmarks remain limited to monolingual and unimodal settings, often over-relying on simple tasks and failing to reflect the complexity of real-world financial communication. We introduce MultiFinBen, the first multilingual and multimodal benchmark tailored to the global financial domain, evaluating LLMs across modalities (text, vision, audio) and linguistic settings (monolingual, bilingual, multilingual) on domain-specific tasks. We introduce two novel tasks, including PolyFiQA-Easy and PolyFiQA-Expert, the first multilingual financial benchmarks requiring models to perform complex reasoning over mixed-language inputs; and EnglishOCR and SpanishOCR, the first OCR-embedded financial QA tasks challenging models to extract and reason over information from visual-text financial documents. Moreover, we propose a dynamic, difficulty-aware selection mechanism and curate a compact, balanced benchmark rather than simple aggregation existing datasets. Extensive evaluation of 22 state-of-the-art models reveals that even the strongest models, despite their general multimodal and multilingual capabilities, struggle dramatically when faced with complex cross-lingual and multimodal tasks in financial domain. MultiFinBen is publicly released to foster transparent, reproducible, and inclusive progress in financial studies and applications.

MultiFinBen: Um Benchmark Multilíngue, Multimodal e Consciente da Dificuldade para Avaliação de LLMs Financeiros

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

Resumo

Support