동일한 주장, 다른 판단: 다국어 금융 허위정보 탐지에서 시나리오에 따른 편향 벤치마킹
Same Claim, Different Judgment: Benchmarking Scenario-Induced Bias in Multilingual Financial Misinformation Detection
January 8, 2026
저자: Zhiwei Liu, Yupen Cao, Yuechen Jiang, Mohsinul Kabir, Polydoros Giannouris, Chen Xu, Ziyang Xu, Tianlei Zhu, Tariquzzaman Faisal, Triantafillos Papadopoulos, Yan Wang, Lingfei Qian, Xueqing Peng, Zhuohan Xie, Ye Yuan, Saeed Almheiri, Abdulrazzaq Alnajjar, Mingbin Chen, Harry Stuart, Paul Thompson, Prayag Tiwari, Alejandro Lopez-Lira, Xue Liu, Jimin Huang, Sophia Ananiadou
cs.AI
초록
대규모 언어 모델(LLM)은 금융의 다양한 영역에 널리 적용되고 있습니다. 학습 데이터가 대부분 인간이 작성한 말뭉치에서 도출되기 때문에 LLM은 다양한 인간의 편향을 계승할 수 있습니다. 행동 편향은 의사 결정, 특히 금융 정보 처리 시 불안정성과 불확실성을 초래할 수 있습니다. 그러나 LLM 편향에 대한 기존 연구는 주로 직접 질문이나 단순화된 일반 목적 설정에 집중되어 있으며, 복잡한 실제 금융 환경과 고위험, 상황에 민감한 다국어 금융 허위정보 탐지 과제(MFMD)에 대한 고려는 제한적이었습니다. 본 연구에서는 다양한 경제 시나리오에서 MFMD 작업 시 LLM의 행동 편향을 평가하기 위한 포괄적인 벤치마크인 MFMDScen을 제안합니다. 금융 전문가들과의 협력을 통해 세 가지 유형의 복잡한 금융 시나리오를 구성합니다: (i) 역할 및 성격 기반, (ii) 역할 및 지역 기반, (iii) 민족 및 종교 신념을 포함한 역할 기반 시나리오입니다. 또한 영어, 중국어, 그리스어, 벵골어를 포괄하는 다국어 금융 허위정보 데이터셋을 추가로 개발했습니다. 이러한 시나리오와 허위정보 주장을 통합함으로써 MFMDScen은 22개의 주류 LLM에 대한 체계적인 평가를 가능하게 합니다. 우리의 연구 결과는 상용 및 오픈소스 모델 전반에 걸쳐 현저한 행동 편향이 지속되고 있음을 보여줍니다. 본 프로젝트는 https://github.com/lzw108/FMD에서 확인할 수 있습니다.
English
Large language models (LLMs) have been widely applied across various domains of finance. Since their training data are largely derived from human-authored corpora, LLMs may inherit a range of human biases. Behavioral biases can lead to instability and uncertainty in decision-making, particularly when processing financial information. However, existing research on LLM bias has mainly focused on direct questioning or simplified, general-purpose settings, with limited consideration of the complex real-world financial environments and high-risk, context-sensitive, multilingual financial misinformation detection tasks (\mfmd). In this work, we propose \mfmdscen, a comprehensive benchmark for evaluating behavioral biases of LLMs in \mfmd across diverse economic scenarios. In collaboration with financial experts, we construct three types of complex financial scenarios: (i) role- and personality-based, (ii) role- and region-based, and (iii) role-based scenarios incorporating ethnicity and religious beliefs. We further develop a multilingual financial misinformation dataset covering English, Chinese, Greek, and Bengali. By integrating these scenarios with misinformation claims, \mfmdscen enables a systematic evaluation of 22 mainstream LLMs. Our findings reveal that pronounced behavioral biases persist across both commercial and open-source models. This project will be available at https://github.com/lzw108/FMD.