ChatPaper.aiChatPaper

Stessa Affermazione, Giudizio Diverso: Benchmark del Bias Indotto dallo Scenario nel Rilevamento Multilingue di Disinformazione Finanziaria

Same Claim, Different Judgment: Benchmarking Scenario-Induced Bias in Multilingual Financial Misinformation Detection

January 8, 2026
Autori: Zhiwei Liu, Yupen Cao, Yuechen Jiang, Mohsinul Kabir, Polydoros Giannouris, Chen Xu, Ziyang Xu, Tianlei Zhu, Tariquzzaman Faisal, Triantafillos Papadopoulos, Yan Wang, Lingfei Qian, Xueqing Peng, Zhuohan Xie, Ye Yuan, Saeed Almheiri, Abdulrazzaq Alnajjar, Mingbin Chen, Harry Stuart, Paul Thompson, Prayag Tiwari, Alejandro Lopez-Lira, Xue Liu, Jimin Huang, Sophia Ananiadou
cs.AI

Abstract

I grandi modelli linguistici (LLM) sono stati ampiamente applicati in vari ambiti della finanza. Poiché i loro dati di addestramento derivano in gran parte da corpora redatti da esseri umani, gli LLM possono ereditare una serie di pregiudizi umani. I pregiudizi comportamentali possono portare a instabilità e incertezza nel processo decisionale, in particolare durante l'elaborazione di informazioni finanziarie. Tuttavia, la ricerca esistente sui pregiudizi degli LLM si è concentrata principalmente su interrogazioni dirette o contesti semplificati e generalisti, con una considerazione limitata dei complessi ambienti finanziari del mondo reale e dei compiti di rilevamento di informazioni finanziarie errate ad alto rischio, sensibili al contesto e multilingue (\mfmd). In questo lavoro, proponiamo \mfmdscen, un benchmark completo per valutare i pregiudizi comportamentali degli LLM nel \mfmd attraverso diversi scenari economici. In collaborazione con esperti finanziari, abbiamo costruito tre tipi di scenari finanziari complessi: (i) scenari basati su ruolo e personalità, (ii) scenari basati su ruolo e regione, e (iii) scenari basati sul ruolo che incorporano etnia e credenze religiose. Abbiamo inoltre sviluppato un dataset multilingue di informazioni finanziarie errate che copre inglese, cinese, greco e bengalese. Integrando questi scenari con affermazioni di disinformazione, \mfmdscen consente una valutazione sistematica di 22 LLM mainstream. I nostri risultati rivelano che pregiudizi comportamentali pronunciati persistono sia nei modelli commerciali che in quelli open-source. Questo progetto sarà disponibile all'indirizzo https://github.com/lzw108/FMD.
English
Large language models (LLMs) have been widely applied across various domains of finance. Since their training data are largely derived from human-authored corpora, LLMs may inherit a range of human biases. Behavioral biases can lead to instability and uncertainty in decision-making, particularly when processing financial information. However, existing research on LLM bias has mainly focused on direct questioning or simplified, general-purpose settings, with limited consideration of the complex real-world financial environments and high-risk, context-sensitive, multilingual financial misinformation detection tasks (\mfmd). In this work, we propose \mfmdscen, a comprehensive benchmark for evaluating behavioral biases of LLMs in \mfmd across diverse economic scenarios. In collaboration with financial experts, we construct three types of complex financial scenarios: (i) role- and personality-based, (ii) role- and region-based, and (iii) role-based scenarios incorporating ethnicity and religious beliefs. We further develop a multilingual financial misinformation dataset covering English, Chinese, Greek, and Bengali. By integrating these scenarios with misinformation claims, \mfmdscen enables a systematic evaluation of 22 mainstream LLMs. Our findings reveal that pronounced behavioral biases persist across both commercial and open-source models. This project will be available at https://github.com/lzw108/FMD.
PDF103February 7, 2026