Verminderen van politieke manipulatie met consistentietraining

Samenvatting

Grote taalmodellen (LLMs) vertonen systematische politieke vooringenomenheid in uiteenlopende gevoelige contexten. Wij constateren dat LLMs tegenovergestelde onderwerpen van tegengestelde politieke zijden asymmetrisch behandelen. Dit fenomeen noemen wij verborgen politieke vooringenomenheid en identificeren 7 categorieën technieken waarmee dit opereert. Wij stellen twee metrieken voor voor verborgen vooringenomenheid: Sentimentconsistentie meet de symmetrie in retoriek en framing over gepaarde politieke prompts; Behulpzaamheidsconsistentie meet symmetrische diepgang en betrokkenheid. Om beide vormen van verborgen vooringenomenheid te verminderen, introduceren wij Politieke Consistentietraining (PCT), een RL-trainingsmethode met twee complementaire paradigma's: Sentimentconsistentietraining en Behulpzaamheidsconsistentietraining. Wij tonen aan dat PCT de algehele behulpzaamheid behoudt, verborgen politieke vooringenomenheid aanzienlijk vermindert en generaliseert naar niet-geziene benchmarks. Wij publiceren ons werk op https://political-manipulation.ai.

English

Large language models (LLMs) exhibit systematic political bias across a variety of sensitive contexts. We find that LLMs handle counterpart topics from opposing political sides asymmetrically. We refer to this phenomenon as covert political bias and identify 7 categories of techniques through which it operates. We propose two metrics for covert bias: Sentiment Consistency measures symmetry in rhetoric and framing across paired political prompts; Helpfulness Consistency measures symmetric depth and engagement. To reduce both types of covert bias, we introduce Political Consistency Training (PCT), an RL training method with two complementary paradigms: Sentiment Consistency Training and Helpfulness Consistency Training. We show that PCT preserves overall helpfulness, substantially reduces covert political bias, and generalizes to held-out benchmarks. We release our work at https://political-manipulation.ai