Misma Afirmación, Diferente Veredicto: Evaluación del Sesgo Inducido por Escenarios en la Detección Multilingüe de Desinformación Financiera
Same Claim, Different Judgment: Benchmarking Scenario-Induced Bias in Multilingual Financial Misinformation Detection
January 8, 2026
Autores: Zhiwei Liu, Yupen Cao, Yuechen Jiang, Mohsinul Kabir, Polydoros Giannouris, Chen Xu, Ziyang Xu, Tianlei Zhu, Tariquzzaman Faisal, Triantafillos Papadopoulos, Yan Wang, Lingfei Qian, Xueqing Peng, Zhuohan Xie, Ye Yuan, Saeed Almheiri, Abdulrazzaq Alnajjar, Mingbin Chen, Harry Stuart, Paul Thompson, Prayag Tiwari, Alejandro Lopez-Lira, Xue Liu, Jimin Huang, Sophia Ananiadou
cs.AI
Resumen
Los modelos de lenguaje extenso (LLM) se han aplicado ampliamente en diversos ámbitos de las finanzas. Dado que sus datos de entrenamiento proceden en gran medida de corpus creados por humanos, los LLM pueden heredar una serie de sesgos humanos. Los sesgos conductuales pueden generar inestabilidad e incertidumbre en la toma de decisiones, especialmente al procesar información financiera. Sin embargo, la investigación existente sobre los sesgos en los LLM se ha centrado principalmente en interrogatorios directos o en entornos simplificados de propósito general, con una consideración limitada de los complejos entornos financieros del mundo real y de las tareas de detección de desinformación financiera multilingüe, de alto riesgo y sensibles al contexto (\mfmd). En este trabajo, proponemos \mfmdscen, un benchmark integral para evaluar los sesgos conductuales de los LLM en \mfmd a través de diversos escenarios económicos. En colaboración con expertos financieros, construimos tres tipos de escenarios financieros complejos: (i) basados en roles y personalidad, (ii) basados en roles y región, y (iii) escenarios basados en roles que incorporan etnicidad y creencias religiosas. Además, desarrollamos un conjunto de datos multilingüe de desinformación financiera que cubre inglés, chino, griego y bengalí. Al integrar estos escenarios con afirmaciones de desinformación, \mfmdscen permite una evaluación sistemática de 22 LLM principales. Nuestros hallazgos revelan que persisten sesgos conductuales pronunciados tanto en modelos comerciales como de código abierto. Este proyecto estará disponible en https://github.com/lzw108/FMD.
English
Large language models (LLMs) have been widely applied across various domains of finance. Since their training data are largely derived from human-authored corpora, LLMs may inherit a range of human biases. Behavioral biases can lead to instability and uncertainty in decision-making, particularly when processing financial information. However, existing research on LLM bias has mainly focused on direct questioning or simplified, general-purpose settings, with limited consideration of the complex real-world financial environments and high-risk, context-sensitive, multilingual financial misinformation detection tasks (\mfmd). In this work, we propose \mfmdscen, a comprehensive benchmark for evaluating behavioral biases of LLMs in \mfmd across diverse economic scenarios. In collaboration with financial experts, we construct three types of complex financial scenarios: (i) role- and personality-based, (ii) role- and region-based, and (iii) role-based scenarios incorporating ethnicity and religious beliefs. We further develop a multilingual financial misinformation dataset covering English, Chinese, Greek, and Bengali. By integrating these scenarios with misinformation claims, \mfmdscen enables a systematic evaluation of 22 mainstream LLMs. Our findings reveal that pronounced behavioral biases persist across both commercial and open-source models. This project will be available at https://github.com/lzw108/FMD.