ChatPaper.aiChatPaper

同一主張、異なる判断:多言語金融誤情報検出におけるシナリオ誘発バイアスのベンチマーキング

Same Claim, Different Judgment: Benchmarking Scenario-Induced Bias in Multilingual Financial Misinformation Detection

January 8, 2026
著者: Zhiwei Liu, Yupen Cao, Yuechen Jiang, Mohsinul Kabir, Polydoros Giannouris, Chen Xu, Ziyang Xu, Tianlei Zhu, Tariquzzaman Faisal, Triantafillos Papadopoulos, Yan Wang, Lingfei Qian, Xueqing Peng, Zhuohan Xie, Ye Yuan, Saeed Almheiri, Abdulrazzaq Alnajjar, Mingbin Chen, Harry Stuart, Paul Thompson, Prayag Tiwari, Alejandro Lopez-Lira, Xue Liu, Jimin Huang, Sophia Ananiadou
cs.AI

要旨

大規模言語モデル(LLM)は金融の様々な領域で広く応用されている。その学習データは主に人間が作成したコーパスに由来するため、LLMは様々な人間のバイアスを継承する可能性がある。行動バイアスは意思決定の不安定さや不確実性を引き起こし、特に金融情報を処理する際に顕著となる。しかし、既存のLLMバイアス研究は直接質問や単純化された汎用設定に焦点が当てられており、複雑な現実の金融環境や高リスク・文脈依存型の多言語金融誤情報検出タスク(MFMD)への配慮が不十分であった。本研究では、様々な経済シナリオにおけるMFMDでのLLMの行動バイアスを評価する包括的ベンチマーク「MFMDScen」を提案する。金融専門家との協力により、(i)役割・性格ベース、(ii)役割・地域ベース、(iii)民族性と宗教的信念を組み込んだ役割ベースの3種類の複雑な金融シナリオを構築。さらに英語・中国語・ギリシャ語・ベンガル語をカバーする多言語金融誤情報データセットを開発した。これらのシナリオと誤情報主張を統合したMFMDScenにより、22の主流LLMを系統的に評価した結果、商業モデルとオープンソースモデルの双方で顕著な行動バイアスが持続することを明らかにする。本プロジェクトはhttps://github.com/lzw108/FMD で公開予定である。
English
Large language models (LLMs) have been widely applied across various domains of finance. Since their training data are largely derived from human-authored corpora, LLMs may inherit a range of human biases. Behavioral biases can lead to instability and uncertainty in decision-making, particularly when processing financial information. However, existing research on LLM bias has mainly focused on direct questioning or simplified, general-purpose settings, with limited consideration of the complex real-world financial environments and high-risk, context-sensitive, multilingual financial misinformation detection tasks (\mfmd). In this work, we propose \mfmdscen, a comprehensive benchmark for evaluating behavioral biases of LLMs in \mfmd across diverse economic scenarios. In collaboration with financial experts, we construct three types of complex financial scenarios: (i) role- and personality-based, (ii) role- and region-based, and (iii) role-based scenarios incorporating ethnicity and religious beliefs. We further develop a multilingual financial misinformation dataset covering English, Chinese, Greek, and Bengali. By integrating these scenarios with misinformation claims, \mfmdscen enables a systematic evaluation of 22 mainstream LLMs. Our findings reveal that pronounced behavioral biases persist across both commercial and open-source models. This project will be available at https://github.com/lzw108/FMD.
PDF81January 13, 2026