大型語言模型中的地緣政治偏見:當代語言模型視角下的「好」與「壞」國家Geopolitical biases in LLMs: what are the "good" and the "bad" countries
according to contemporary language models
本文通过分析大型语言模型(LLMs)对具有冲突国家视角(美国、英国、苏联和中国)的历史事件的解读,评估了这些模型在不同国家间的地缘政治偏见。我们引入了一个包含中立事件描述及各国对立观点的新数据集。研究发现,模型存在显著的地缘政治偏见,倾向于特定国家的叙事。此外,简单的去偏见提示在减少这些偏见方面效果有限。通过操控参与者标签的实验揭示了模型对归属的敏感性,有时会放大偏见或识别出不一致性,尤其是在标签互换的情况下。本研究凸显了LLMs中的国家叙事偏见,挑战了简单去偏见方法的有效性,并为未来的地缘政治偏见研究提供了框架和数据集。