Dezelfde Bewering, Ander Oordeel: Een Benchmark voor Scenario-geïnduceerde Vooroordelen in Meertalige Detectie van Financiële Desinformatie
Same Claim, Different Judgment: Benchmarking Scenario-Induced Bias in Multilingual Financial Misinformation Detection
January 8, 2026
Auteurs: Zhiwei Liu, Yupen Cao, Yuechen Jiang, Mohsinul Kabir, Polydoros Giannouris, Chen Xu, Ziyang Xu, Tianlei Zhu, Tariquzzaman Faisal, Triantafillos Papadopoulos, Yan Wang, Lingfei Qian, Xueqing Peng, Zhuohan Xie, Ye Yuan, Saeed Almheiri, Abdulrazzaq Alnajjar, Mingbin Chen, Harry Stuart, Paul Thompson, Prayag Tiwari, Alejandro Lopez-Lira, Xue Liu, Jimin Huang, Sophia Ananiadou
cs.AI
Samenvatting
Grote taalmodellen (LLM's) worden inmiddels op grote schaal toegepast in diverse financiële domeinen. Omdat hun trainingsdata grotendeels afkomstig is uit door mensen geschreven corpora, kunnen LLM's een reeks menselijke vooroordelen overnemen. Gedragsmatige vooroordelen kunnen leiden tot instabiliteit en onzekerheid in de besluitvorming, met name bij de verwerking van financiële informatie. Bestaand onderzoek naar vooroordelen in LLM's heeft zich echter voornamelijk gericht op directe bevraging of vereenvoudigde, algemene settings, met beperkte aandacht voor de complexe financiële praktijkomgevingen en hoogrisico, contextgevoelige, meertalige taken voor het detecteren van financiële desinformatie (\mfmd). In dit werk stellen we \mfmdscen voor, een uitgebreide benchmark voor het evalueren van gedragsmatige vooroordelen van LLM's in \mfmd binnen uiteenlopende economische scenario's. In samenwerking met financiële experts construeren we drie soorten complexe financiële scenario's: (i) op rol en persoonlijkheid gebaseerde, (ii) op rol en regio gebaseerde, en (iii) op rol gebaseerde scenario's die etniciteit en religieuze overtuigingen incorporeren. We ontwikkelen verder een meertalige dataset voor financiële desinformatie, die Engels, Chinees, Grieks en Bengaals omvat. Door deze scenario's te integreren met desinformatie-claims maakt \mfmdscen een systematische evaluatie mogelijk van 22 mainstream LLM's. Onze bevindingen tonen aan dat uitgesproken gedragsmatige vooroordelen persistent aanwezig zijn in zowel commerciële als open-source modellen. Dit project zal beschikbaar zijn op https://github.com/lzw108/FMD.
English
Large language models (LLMs) have been widely applied across various domains of finance. Since their training data are largely derived from human-authored corpora, LLMs may inherit a range of human biases. Behavioral biases can lead to instability and uncertainty in decision-making, particularly when processing financial information. However, existing research on LLM bias has mainly focused on direct questioning or simplified, general-purpose settings, with limited consideration of the complex real-world financial environments and high-risk, context-sensitive, multilingual financial misinformation detection tasks (\mfmd). In this work, we propose \mfmdscen, a comprehensive benchmark for evaluating behavioral biases of LLMs in \mfmd across diverse economic scenarios. In collaboration with financial experts, we construct three types of complex financial scenarios: (i) role- and personality-based, (ii) role- and region-based, and (iii) role-based scenarios incorporating ethnicity and religious beliefs. We further develop a multilingual financial misinformation dataset covering English, Chinese, Greek, and Bengali. By integrating these scenarios with misinformation claims, \mfmdscen enables a systematic evaluation of 22 mainstream LLMs. Our findings reveal that pronounced behavioral biases persist across both commercial and open-source models. This project will be available at https://github.com/lzw108/FMD.