A Mesma Alegação, Julgamento Diferente: Avaliação do Viés Induzido por Cenário na Detecção Multilíngue de Desinformação Financeira

Resumo

Os grandes modelos de linguagem (LLMs) têm sido amplamente aplicados em diversos domínios das finanças. Uma vez que os seus dados de treino são maioritariamente derivados de corpora produzidos por humanos, os LLMs podem herdar uma série de vieses humanos. Vieses comportamentais podem levar a instabilidade e incerteza na tomada de decisões, particularmente durante o processamento de informação financeira. No entanto, a investigação existente sobre vieses em LLMs tem-se focado principalmente em questionamento direto ou em configurações simplificadas e de propósito geral, com uma consideração limitada dos ambientes financeiros complexos do mundo real e das tarefas de deteção de desinformação financeira multilingue, sensível ao contexto e de alto risco. Neste trabalho, propomos o \mfmdscen, um benchmark abrangente para avaliar vieses comportamentais de LLMs em tarefas de deteção de desinformação financeira multilingue através de diversos cenários económicos. Em colaboração com especialistas financeiros, construímos três tipos de cenários financeiros complexos: (i) baseados em papel (role) e personalidade, (ii) baseados em papel e região, e (iii) cenários baseados em papel que incorporam etnia e crenças religiosas. Desenvolvemos ainda um conjunto de dados multilingue de desinformação financeira que abrange Inglês, Chinês, Grego e Bengali. Ao integrar estes cenários com alegações de desinformação, o \mfmdscen permite uma avaliação sistemática de 22 LLMs mainstream. As nossas conclusões revelam que vieses comportamentais pronunciados persistem tanto em modelos comerciais como de código aberto. Este projeto estará disponível em https://github.com/lzw108/FMD.

English

Large language models (LLMs) have been widely applied across various domains of finance. Since their training data are largely derived from human-authored corpora, LLMs may inherit a range of human biases. Behavioral biases can lead to instability and uncertainty in decision-making, particularly when processing financial information. However, existing research on LLM bias has mainly focused on direct questioning or simplified, general-purpose settings, with limited consideration of the complex real-world financial environments and high-risk, context-sensitive, multilingual financial misinformation detection tasks (\mfmd). In this work, we propose \mfmdscen, a comprehensive benchmark for evaluating behavioral biases of LLMs in \mfmd across diverse economic scenarios. In collaboration with financial experts, we construct three types of complex financial scenarios: (i) role- and personality-based, (ii) role- and region-based, and (iii) role-based scenarios incorporating ethnicity and religious beliefs. We further develop a multilingual financial misinformation dataset covering English, Chinese, Greek, and Bengali. By integrating these scenarios with misinformation claims, \mfmdscen enables a systematic evaluation of 22 mainstream LLMs. Our findings reveal that pronounced behavioral biases persist across both commercial and open-source models. This project will be available at https://github.com/lzw108/FMD.

A Mesma Alegação, Julgamento Diferente: Avaliação do Viés Induzido por Cenário na Detecção Multilíngue de Desinformação Financeira

Same Claim, Different Judgment: Benchmarking Scenario-Induced Bias in Multilingual Financial Misinformation Detection

Resumo

Support