ChatPaper.aiChatPaper

Gleiche Behauptung, unterschiedliches Urteil: Benchmarking szenariobedingter Verzerrungen bei der mehrsprachigen Erkennung finanzieller Fehlinformationen

Same Claim, Different Judgment: Benchmarking Scenario-Induced Bias in Multilingual Financial Misinformation Detection

January 8, 2026
papers.authors: Zhiwei Liu, Yupen Cao, Yuechen Jiang, Mohsinul Kabir, Polydoros Giannouris, Chen Xu, Ziyang Xu, Tianlei Zhu, Tariquzzaman Faisal, Triantafillos Papadopoulos, Yan Wang, Lingfei Qian, Xueqing Peng, Zhuohan Xie, Ye Yuan, Saeed Almheiri, Abdulrazzaq Alnajjar, Mingbin Chen, Harry Stuart, Paul Thompson, Prayag Tiwari, Alejandro Lopez-Lira, Xue Liu, Jimin Huang, Sophia Ananiadou
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) finden inzwischen breite Anwendung in verschiedenen Bereichen der Finanzwelt. Da ihre Trainingsdaten größtenteils von Menschen verfassten Textkorpora entstammen, können LLMs eine Reihe menschlicher Verzerrungen (Biases) übernehmen. Verhaltensbezogene Verzerrungen können zu Instabilität und Unsicherheit in Entscheidungsprozessen führen, insbesondere bei der Verarbeitung finanzieller Informationen. Bisherige Forschungen zu LLM-Bias konzentrierten sich jedoch hauptsächlich auf direkte Befragungen oder vereinfachte, allgemeine Rahmenbedingungen, wobei die komplexen realen Finanzumgebungen und hochriskanten, kontextsensitiven, mehrsprachigen Aufgaben zur Erkennung finanzieller Fehlinformationen (\mfmd) nur begrenzt berücksichtigt wurden. In dieser Arbeit schlagen wir \mfmdscen vor, einen umfassenden Benchmark zur Bewertung verhaltensbezogener Verzerrungen von LLMs in \mfmd über verschiedene Wirtschaftsszenarien hinweg. In Zusammenarbeit mit Finanzexperten konstruieren wir drei Arten komplexer Finanzszenarien: (i) rollen- und persönlichkeitsbasierte, (ii) rollen- und regionsbasierte sowie (iii) rollenbasierte Szenarien, die Ethnizität und religiöse Überzeugungen einbeziehen. Wir entwickeln ferner einen mehrsprachigen Datensatz zu finanziellen Fehlinformationen, der Englisch, Chinesisch, Griechisch und Bengalisch abdeckt. Durch die Integration dieser Szenarien mit Fehlinformationsbehauptungen ermöglicht \mfmdscen eine systematische Evaluation von 22 Mainstream-LLMs. Unsere Ergebnisse zeigen, dass ausgeprägte verhaltensbezogene Verzerrungen sowohl bei kommerziellen als auch Open-Source-Modellen bestehen bleiben. Dieses Projekt wird unter https://github.com/lzw108/FMD verfügbar sein.
English
Large language models (LLMs) have been widely applied across various domains of finance. Since their training data are largely derived from human-authored corpora, LLMs may inherit a range of human biases. Behavioral biases can lead to instability and uncertainty in decision-making, particularly when processing financial information. However, existing research on LLM bias has mainly focused on direct questioning or simplified, general-purpose settings, with limited consideration of the complex real-world financial environments and high-risk, context-sensitive, multilingual financial misinformation detection tasks (\mfmd). In this work, we propose \mfmdscen, a comprehensive benchmark for evaluating behavioral biases of LLMs in \mfmd across diverse economic scenarios. In collaboration with financial experts, we construct three types of complex financial scenarios: (i) role- and personality-based, (ii) role- and region-based, and (iii) role-based scenarios incorporating ethnicity and religious beliefs. We further develop a multilingual financial misinformation dataset covering English, Chinese, Greek, and Bengali. By integrating these scenarios with misinformation claims, \mfmdscen enables a systematic evaluation of 22 mainstream LLMs. Our findings reveal that pronounced behavioral biases persist across both commercial and open-source models. This project will be available at https://github.com/lzw108/FMD.
PDF81January 13, 2026