Снижение политической манипуляции с помощью обучения согласованности

Аннотация

Большие языковые модели (LLM) демонстрируют систематическую политическую предвзятость в различных чувствительных контекстах. Мы обнаружили, что LLM обрабатывают парные темы из противоположных политических лагерей асимметрично. Этот феномен мы называем скрытой политической предвзятостью и выделяем 7 категорий техник, через которые она реализуется. Для оценки скрытой предвзятости мы предлагаем две метрики: согласованность тона (Sentiment Consistency) измеряет симметрию риторики и формулировок в парных политических запросах; согласованность полезности (Helpfulness Consistency) измеряет симметричную глубину и вовлеченность ответов. Чтобы уменьшить оба типа скрытой предвзятости, мы предлагаем обучение политической согласованности (Political Consistency Training, PCT) — метод RL-обучения с двумя взаимодополняющими парадигмами: обучение согласованности тона (Sentiment Consistency Training) и обучение согласованности полезности (Helpfulness Consistency Training). Мы показываем, что PCT сохраняет общую полезность, существенно снижает скрытую политическую предвзятость и обобщается на тестовые наборы данных, не использовавшиеся в обучении. Наша работа доступна по адресу https://political-manipulation.ai.

English

Large language models (LLMs) exhibit systematic political bias across a variety of sensitive contexts. We find that LLMs handle counterpart topics from opposing political sides asymmetrically. We refer to this phenomenon as covert political bias and identify 7 categories of techniques through which it operates. We propose two metrics for covert bias: Sentiment Consistency measures symmetry in rhetoric and framing across paired political prompts; Helpfulness Consistency measures symmetric depth and engagement. To reduce both types of covert bias, we introduce Political Consistency Training (PCT), an RL training method with two complementary paradigms: Sentiment Consistency Training and Helpfulness Consistency Training. We show that PCT preserves overall helpfulness, substantially reduces covert political bias, and generalizes to held-out benchmarks. We release our work at https://political-manipulation.ai