Même Allégation, Jugement Différent : Évaluation du Biais Induit par les Scénarios dans la Détection Multilingue de Désinformation Financière
Same Claim, Different Judgment: Benchmarking Scenario-Induced Bias in Multilingual Financial Misinformation Detection
January 8, 2026
papers.authors: Zhiwei Liu, Yupen Cao, Yuechen Jiang, Mohsinul Kabir, Polydoros Giannouris, Chen Xu, Ziyang Xu, Tianlei Zhu, Tariquzzaman Faisal, Triantafillos Papadopoulos, Yan Wang, Lingfei Qian, Xueqing Peng, Zhuohan Xie, Ye Yuan, Saeed Almheiri, Abdulrazzaq Alnajjar, Mingbin Chen, Harry Stuart, Paul Thompson, Prayag Tiwari, Alejandro Lopez-Lira, Xue Liu, Jimin Huang, Sophia Ananiadou
cs.AI
papers.abstract
Les grands modèles de langage (LLM) sont largement déployés dans divers domaines de la finance. Comme leurs données d'entraînement proviennent majoritairement de corpus rédigés par des humains, les LLM peuvent hériter de divers biais humains. Les biais comportementaux peuvent entraîner une instabilité et une incertitude dans la prise de décision, particulièrement lors du traitement d'informations financières. Cependant, les recherches existantes sur les biais des LLM se sont principalement concentrées sur des interrogations directes ou des configurations simplifiées à usage général, avec une considération limitée des environnements financiers complexes du monde réel et des tâches de détection de désinformation financière multilingue, à haut risque et sensible au contexte (\mfmd). Dans ce travail, nous proposons \mfmdscen, un benchmark complet pour évaluer les biais comportementaux des LLM dans le cadre du \mfmd à travers divers scénarios économiques. En collaboration avec des experts financiers, nous avons construit trois types de scénarios financiers complexes : (i) basés sur les rôles et la personnalité, (ii) basés sur les rôles et la région, et (iii) basés sur les rôles intégrant l'origine ethnique et les croyances religieuses. Nous avons en outre développé un jeu de données multilingue de désinformation financière couvrant l'anglais, le chinois, le grec et le bengali. En intégrant ces scénarios à des affirmations trompeuses, \mfmdscen permet une évaluation systématique de 22 LLM grand public. Nos résultats révèlent que des biais comportementaux prononcés persistent à la fois dans les modèles commerciaux et open source. Ce projet sera disponible à l'adresse https://github.com/lzw108/FMD.
English
Large language models (LLMs) have been widely applied across various domains of finance. Since their training data are largely derived from human-authored corpora, LLMs may inherit a range of human biases. Behavioral biases can lead to instability and uncertainty in decision-making, particularly when processing financial information. However, existing research on LLM bias has mainly focused on direct questioning or simplified, general-purpose settings, with limited consideration of the complex real-world financial environments and high-risk, context-sensitive, multilingual financial misinformation detection tasks (\mfmd). In this work, we propose \mfmdscen, a comprehensive benchmark for evaluating behavioral biases of LLMs in \mfmd across diverse economic scenarios. In collaboration with financial experts, we construct three types of complex financial scenarios: (i) role- and personality-based, (ii) role- and region-based, and (iii) role-based scenarios incorporating ethnicity and religious beliefs. We further develop a multilingual financial misinformation dataset covering English, Chinese, Greek, and Bengali. By integrating these scenarios with misinformation claims, \mfmdscen enables a systematic evaluation of 22 mainstream LLMs. Our findings reveal that pronounced behavioral biases persist across both commercial and open-source models. This project will be available at https://github.com/lzw108/FMD.