Геополитические предубеждения в языковых моделях: какие страны считаются «хорошими» и «плохими» согласно современным языковым моделям
Geopolitical biases in LLMs: what are the "good" and the "bad" countries according to contemporary language models
June 7, 2025
Авторы: Mikhail Salnikov, Dmitrii Korzh, Ivan Lazichny, Elvir Karimov, Artyom Iudin, Ivan Oseledets, Oleg Y. Rogov, Alexander Panchenko, Natalia Loukachevitch, Elena Tutubalina
cs.AI
Аннотация
В данной статье проводится оценка геополитических предубеждений в языковых моделях (LLMs) в отношении различных стран на основе анализа их интерпретации исторических событий с противоречивыми национальными перспективами (США, Великобритания, СССР и Китай). Мы представляем новый набор данных, содержащий нейтральные описания событий и контрастирующие точки зрения разных стран. Наши результаты демонстрируют значительные геополитические предубеждения, причем модели склоняются к определённым национальным нарративам. Кроме того, простые методы устранения предубеждений оказались малоэффективными в снижении этих искажений. Эксперименты с изменёнными метками участников выявили чувствительность моделей к атрибуции, иногда усиливающую предубеждения или распознающую несоответствия, особенно при замене меток. Эта работа подчеркивает наличие национальных нарративных предубеждений в LLMs, ставит под сомнение эффективность простых методов устранения предубеждений и предлагает основу и набор данных для будущих исследований геополитических искажений.
English
This paper evaluates geopolitical biases in LLMs with respect to various
countries though an analysis of their interpretation of historical events with
conflicting national perspectives (USA, UK, USSR, and China). We introduce a
novel dataset with neutral event descriptions and contrasting viewpoints from
different countries. Our findings show significant geopolitical biases, with
models favoring specific national narratives. Additionally, simple debiasing
prompts had a limited effect in reducing these biases. Experiments with
manipulated participant labels reveal models' sensitivity to attribution,
sometimes amplifying biases or recognizing inconsistencies, especially with
swapped labels. This work highlights national narrative biases in LLMs,
challenges the effectiveness of simple debiasing methods, and offers a
framework and dataset for future geopolitical bias research.