¿Hasta dónde llegarán? Red-teaming de influencia en línea con grandes modelos de lenguaje

Resumen

A medida que los agentes basados en grandes modelos de lenguaje (LLM) participan cada vez más en el discurso en línea, someter a pruebas de adversarios (red-teaming) su capacidad para apoyar campañas de influencia política resulta crítico para la integridad de la información. Con este objetivo, nos centramos en LLMs de código abierto desplegados localmente, en contraposición a los modelos de frontera solo accesibles mediante API, dada su mejor alineación con las limitaciones operativas de actores maliciosos conscientes de la privacidad que operan en entornos de redes sociales. Introducimos un marco empírico de pruebas de adversarios para medir las Ventanas de Overton (OV) de los LLM, definidas como el rango de opiniones políticas que un modelo puede expresar de manera fiable sobre temas controvertidos, y para cuantificar cómo los jailbreaks simples en lenguaje natural amplían dicho rango. Evaluamos más de 30 LLM que abarcan 10 familias de modelos y cinco países de origen. Encontramos asimetrías sistemáticas en la expresividad política: los LLM de código abierto suelen estar más dispuestos a generar contenido de redes sociales de tendencia izquierdista, las Ventanas de Overton tienden a contraerse inversamente al tamaño del modelo, y las diferencias regionales son sustanciales a pesar de la representación desigual en el ecosistema de código abierto. La potencia de los jailbreaks también varía marcadamente entre las familias de modelos, lo que motiva un flujo de trabajo para identificar combinaciones efectivas de técnicas de jailbreak. En conjunto, nuestros resultados establecen un marco práctico para auditar la direccionabilidad política de los LLM de código abierto y para ayudar a futuros investigadores a diseñar contramedidas más sólidas contra las campañas de influencia habilitadas por LLM.

English

As large language model (LLM)-based agents increasingly participate in online discourse, red-teaming their capacity to support political influence campaigns is critical for information integrity. In pursuit of this goal, we focus on locally deployed open-source LLMs, as opposed to frontier API-only models, given their superior alignment with the operational constraints of privacy-conscious malicious actors deployed in social media environments. We introduce an empirical red-teaming framework for measuring LLM Overton Windows (OWs), defined as the range of political opinions a model can reliably express on controversial topics, and for quantifying how simple natural-language jailbreaks expand that range. We evaluate more than 30 LLMs spanning 10 model families and five countries of origin. We find systematic asymmetries in political expressivity: open-source LLMs are typically more willing to generate left-leaning social media content, OWs tend to contract inversely to model size, and regional differences are substantial despite uneven representation in the open-source ecosystem. Jailbreak potency also varies sharply across model families, motivating a workflow for identifying effective combinations of jailbreak techniques. Taken together, our results establish a practical framework for auditing the political steerability of open-source LLMs and for helping future researchers design stronger countermeasures against LLM-enabled influence campaigns.