Geopolitieke vooroordelen in LLM's: wat zijn de "goede" en de "slechte" landen volgens hedendaagse taalmodelen
Geopolitical biases in LLMs: what are the "good" and the "bad" countries according to contemporary language models
June 7, 2025
Auteurs: Mikhail Salnikov, Dmitrii Korzh, Ivan Lazichny, Elvir Karimov, Artyom Iudin, Ivan Oseledets, Oleg Y. Rogov, Alexander Panchenko, Natalia Loukachevitch, Elena Tutubalina
cs.AI
Samenvatting
Dit artikel evalueert geopolitieke vooroordelen in grote taalmodellen (LLMs) ten aanzien van verschillende landen door een analyse van hun interpretatie van historische gebeurtenissen met tegenstrijdige nationale perspectieven (VS, VK, USSR en China). We introduceren een nieuwe dataset met neutrale beschrijvingen van gebeurtenissen en contrasterende standpunten vanuit verschillende landen. Onze bevindingen tonen significante geopolitieke vooroordelen aan, waarbij de modellen specifieke nationale narratieven bevoordelen. Daarnaast hadden eenvoudige debiasing-prompten een beperkt effect in het verminderen van deze vooroordelen. Experimenten met gemanipuleerde deelnemerslabels onthullen de gevoeligheid van de modellen voor attributie, waarbij vooroordelen soms worden versterkt of inconsistenties worden herkend, vooral bij verwisselde labels. Dit werk belicht nationale narratieve vooroordelen in LLMs, stelt de effectiviteit van eenvoudige debiasing-methoden ter discussie en biedt een raamwerk en dataset voor toekomstig onderzoek naar geopolitieke vooroordelen.
English
This paper evaluates geopolitical biases in LLMs with respect to various
countries though an analysis of their interpretation of historical events with
conflicting national perspectives (USA, UK, USSR, and China). We introduce a
novel dataset with neutral event descriptions and contrasting viewpoints from
different countries. Our findings show significant geopolitical biases, with
models favoring specific national narratives. Additionally, simple debiasing
prompts had a limited effect in reducing these biases. Experiments with
manipulated participant labels reveal models' sensitivity to attribution,
sometimes amplifying biases or recognizing inconsistencies, especially with
swapped labels. This work highlights national narrative biases in LLMs,
challenges the effectiveness of simple debiasing methods, and offers a
framework and dataset for future geopolitical bias research.