ChatPaper.aiChatPaper

Reducción de la manipulación política mediante entrenamiento en consistencia

Reducing Political Manipulation with Consistency Training

May 28, 2026
Autores: Long Phan, Devin Kim, Alexander Pan, Alice Blair, Adam Khoja, Dan Hendrycks
cs.AI

Resumen

Los grandes modelos de lenguaje (LLMs) presentan un sesgo político sistemático en diversos contextos sensibles. Observamos que los LLMs manejan de manera asimétrica temas contrapuestos de posiciones políticas opuestas. Denominamos a este fenómeno sesgo político encubierto e identificamos 7 categorías de técnicas a través de las cuales opera. Proponemos dos métricas para el sesgo encubierto: la Consistencia de Sentimiento, que mide la simetría en el lenguaje y el encuadre entre pares de indicaciones políticas; y la Consistencia de Utilidad, que mide la simetría en la profundidad y el compromiso. Para reducir ambos tipos de sesgo encubierto, introducimos el Entrenamiento de Consistencia Política (PCT), un método de entrenamiento por RL con dos paradigmas complementarios: Entrenamiento de Consistencia de Sentimiento y Entrenamiento de Consistencia de Utilidad. Demostramos que el PCT preserva la utilidad general, reduce sustancialmente el sesgo político encubierto y se generaliza a conjuntos de referencia no vistos. Publicamos nuestro trabajo en https://political-manipulation.ai
English
Large language models (LLMs) exhibit systematic political bias across a variety of sensitive contexts. We find that LLMs handle counterpart topics from opposing political sides asymmetrically. We refer to this phenomenon as covert political bias and identify 7 categories of techniques through which it operates. We propose two metrics for covert bias: Sentiment Consistency measures symmetry in rhetoric and framing across paired political prompts; Helpfulness Consistency measures symmetric depth and engagement. To reduce both types of covert bias, we introduce Political Consistency Training (PCT), an RL training method with two complementary paradigms: Sentiment Consistency Training and Helpfulness Consistency Training. We show that PCT preserves overall helpfulness, substantially reduces covert political bias, and generalizes to held-out benchmarks. We release our work at https://political-manipulation.ai