Одно и то же утверждение, разный вердикт: анализ сценарно-обусловленной предвзятости в многоязычном выявлении финансовой дезинформации
Same Claim, Different Judgment: Benchmarking Scenario-Induced Bias in Multilingual Financial Misinformation Detection
January 8, 2026
Авторы: Zhiwei Liu, Yupen Cao, Yuechen Jiang, Mohsinul Kabir, Polydoros Giannouris, Chen Xu, Ziyang Xu, Tianlei Zhu, Tariquzzaman Faisal, Triantafillos Papadopoulos, Yan Wang, Lingfei Qian, Xueqing Peng, Zhuohan Xie, Ye Yuan, Saeed Almheiri, Abdulrazzaq Alnajjar, Mingbin Chen, Harry Stuart, Paul Thompson, Prayag Tiwari, Alejandro Lopez-Lira, Xue Liu, Jimin Huang, Sophia Ananiadou
cs.AI
Аннотация
Крупные языковые модели (LLM) нашли широкое применение в различных областях финансов. Поскольку их обучающие данные в значительной степени получены из созданных человеком текстовых корпусов, LLM могут унаследовать ряд человеческих предубеждений. Поведенческие предубеждения способны приводить к нестабильности и неопределённости при принятии решений, особенно при обработке финансовой информации. Однако существующие исследования предубеждений LLM в основном сосредоточены на прямом опросе или упрощённых универсальных условиях, с ограниченным учётом сложных реальных финансовых сред и задач обнаружения многоязычной финансовой дезинформации (\mfmd), характеризующихся высоким риском и контекстуальной зависимостью. В данной работе мы предлагаем \mfmdscen, комплексный бенчмарк для оценки поведенческих предубеждений LLM в задачах \mfmd в различных экономических сценариях. Совместно с финансовыми экспертами мы построили три типа сложных финансовых сценариев: (i) основанные на роли и личности, (ii) основанные на роли и регионе, и (iii) ролевые сценарии, включающие этническую принадлежность и религиозные убеждения. Мы также разработали многоязычный набор данных о финансовой дезинформации, охватывающий английский, китайский, греческий и бенгальский языки. Интегрируя эти сценарии с дезинформационными утверждениями, \mfmdscen позволяет провести систематическую оценку 22 основных LLM. Наши результаты показывают, что выраженные поведенческие предубеждения сохраняются как в коммерческих, так и в открытых моделях. Проект будет доступен по адресу https://github.com/lzw108/FMD.
English
Large language models (LLMs) have been widely applied across various domains of finance. Since their training data are largely derived from human-authored corpora, LLMs may inherit a range of human biases. Behavioral biases can lead to instability and uncertainty in decision-making, particularly when processing financial information. However, existing research on LLM bias has mainly focused on direct questioning or simplified, general-purpose settings, with limited consideration of the complex real-world financial environments and high-risk, context-sensitive, multilingual financial misinformation detection tasks (\mfmd). In this work, we propose \mfmdscen, a comprehensive benchmark for evaluating behavioral biases of LLMs in \mfmd across diverse economic scenarios. In collaboration with financial experts, we construct three types of complex financial scenarios: (i) role- and personality-based, (ii) role- and region-based, and (iii) role-based scenarios incorporating ethnicity and religious beliefs. We further develop a multilingual financial misinformation dataset covering English, Chinese, Greek, and Bengali. By integrating these scenarios with misinformation claims, \mfmdscen enables a systematic evaluation of 22 mainstream LLMs. Our findings reveal that pronounced behavioral biases persist across both commercial and open-source models. This project will be available at https://github.com/lzw108/FMD.