Reduzindo a Manipulação Política com Treinamento de Consistência

Resumo

Grandes modelos de linguagem (LLMs) exibem viés político sistemático em uma variedade de contextos sensíveis. Constatamos que LLMs lidam de forma assimétrica com tópicos correspondentes de lados políticos opostos. Referimo-nos a esse fenômeno como viés político encoberto e identificamos 7 categorias de técnicas por meio das quais ele opera. Propomos duas métricas para o viés encoberto: Consistência de Sentimento mede a simetria na retórica e no enquadramento entre prompts políticos pareados; Consistência de Utilidade mede a simetria na profundidade e no engajamento. Para reduzir ambos os tipos de viés encoberto, introduzimos o Treinamento de Consistência Política (PCT), um método de treinamento por RL com dois paradigmas complementares: Treinamento de Consistência de Sentimento e Treinamento de Consistência de Utilidade. Mostramos que o PCT preserva a utilidade geral, reduz substancialmente o viés político encoberto e se generaliza para benchmarks não vistos. Disponibilizamos nosso trabalho em https://political-manipulation.ai.

English

Large language models (LLMs) exhibit systematic political bias across a variety of sensitive contexts. We find that LLMs handle counterpart topics from opposing political sides asymmetrically. We refer to this phenomenon as covert political bias and identify 7 categories of techniques through which it operates. We propose two metrics for covert bias: Sentiment Consistency measures symmetry in rhetoric and framing across paired political prompts; Helpfulness Consistency measures symmetric depth and engagement. To reduce both types of covert bias, we introduce Political Consistency Training (PCT), an RL training method with two complementary paradigms: Sentiment Consistency Training and Helpfulness Consistency Training. We show that PCT preserves overall helpfulness, substantially reduces covert political bias, and generalizes to held-out benchmarks. We release our work at https://political-manipulation.ai