Stessa Affermazione, Giudizio Diverso: Benchmark del Bias Indotto dallo Scenario nel Rilevamento Multilingue di Disinformazione Finanziaria

Abstract

I grandi modelli linguistici (LLM) sono stati ampiamente applicati in vari ambiti della finanza. Poiché i loro dati di addestramento derivano in gran parte da corpora redatti da esseri umani, gli LLM possono ereditare una serie di pregiudizi umani. I pregiudizi comportamentali possono portare a instabilità e incertezza nel processo decisionale, in particolare durante l'elaborazione di informazioni finanziarie. Tuttavia, la ricerca esistente sui pregiudizi degli LLM si è concentrata principalmente su interrogazioni dirette o contesti semplificati e generalisti, con una considerazione limitata dei complessi ambienti finanziari del mondo reale e dei compiti di rilevamento di informazioni finanziarie errate ad alto rischio, sensibili al contesto e multilingue (\mfmd). In questo lavoro, proponiamo \mfmdscen, un benchmark completo per valutare i pregiudizi comportamentali degli LLM nel \mfmd attraverso diversi scenari economici. In collaborazione con esperti finanziari, abbiamo costruito tre tipi di scenari finanziari complessi: (i) scenari basati su ruolo e personalità, (ii) scenari basati su ruolo e regione, e (iii) scenari basati sul ruolo che incorporano etnia e credenze religiose. Abbiamo inoltre sviluppato un dataset multilingue di informazioni finanziarie errate che copre inglese, cinese, greco e bengalese. Integrando questi scenari con affermazioni di disinformazione, \mfmdscen consente una valutazione sistematica di 22 LLM mainstream. I nostri risultati rivelano che pregiudizi comportamentali pronunciati persistono sia nei modelli commerciali che in quelli open-source. Questo progetto sarà disponibile all'indirizzo https://github.com/lzw108/FMD.

English

Large language models (LLMs) have been widely applied across various domains of finance. Since their training data are largely derived from human-authored corpora, LLMs may inherit a range of human biases. Behavioral biases can lead to instability and uncertainty in decision-making, particularly when processing financial information. However, existing research on LLM bias has mainly focused on direct questioning or simplified, general-purpose settings, with limited consideration of the complex real-world financial environments and high-risk, context-sensitive, multilingual financial misinformation detection tasks (\mfmd). In this work, we propose \mfmdscen, a comprehensive benchmark for evaluating behavioral biases of LLMs in \mfmd across diverse economic scenarios. In collaboration with financial experts, we construct three types of complex financial scenarios: (i) role- and personality-based, (ii) role- and region-based, and (iii) role-based scenarios incorporating ethnicity and religious beliefs. We further develop a multilingual financial misinformation dataset covering English, Chinese, Greek, and Bengali. By integrating these scenarios with misinformation claims, \mfmdscen enables a systematic evaluation of 22 mainstream LLMs. Our findings reveal that pronounced behavioral biases persist across both commercial and open-source models. This project will be available at https://github.com/lzw108/FMD.

Stessa Affermazione, Giudizio Diverso: Benchmark del Bias Indotto dallo Scenario nel Rilevamento Multilingue di Disinformazione Finanziaria

Same Claim, Different Judgment: Benchmarking Scenario-Induced Bias in Multilingual Financial Misinformation Detection

Abstract

Support