Até Onde Eles Irão? Red-Teaming de Influência Online com Grandes Modelos de Linguagem

Resumo

Agentes baseados em grandes modelos de linguagem (LLMs) participam cada vez mais do discurso online, sendo fundamental, para a integridade informacional, realizar testes de adversário (red-teaming) sobre sua capacidade de apoiar campanhas de influência política. Com esse objetivo, focamos em LLMs de código aberto implantados localmente, em vez de modelos de fronteira exclusivos por API, dada sua maior adequação às restrições operacionais de atores maliciosos preocupados com a privacidade em ambientes de mídia social. Apresentamos uma estrutura empírica de red-teaming para medir as Janelas de Overton (JOs) dos LLMs, definidas como o espectro de opiniões políticas que um modelo pode expressar confiavelmente sobre tópicos controversos, e para quantificar como jailbreaks simples em linguagem natural expandem esse espectro. Avaliamos mais de 30 LLMs abrangendo 10 famílias de modelos e cinco países de origem. Encontramos assimetrias sistemáticas na expressividade política: LLMs de código aberto geralmente estão mais dispostos a gerar conteúdo de mídia social de inclinação esquerdista; as JOs tendem a se contrair inversamente ao tamanho do modelo; e as diferenças regionais são substanciais, apesar da representação desigual no ecossistema de código aberto. A potência dos jailbreaks também varia acentuadamente entre famílias de modelos, motivando um fluxo de trabalho para identificar combinações eficazes de técnicas de jailbreak. Em conjunto, nossos resultados estabelecem uma estrutura prática para auditar a direcionabilidade política de LLMs de código aberto e para auxiliar futuros pesquisadores no desenvolvimento de contramedidas mais robustas contra campanhas de influência habilitadas por LLMs.

English

As large language model (LLM)-based agents increasingly participate in online discourse, red-teaming their capacity to support political influence campaigns is critical for information integrity. In pursuit of this goal, we focus on locally deployed open-source LLMs, as opposed to frontier API-only models, given their superior alignment with the operational constraints of privacy-conscious malicious actors deployed in social media environments. We introduce an empirical red-teaming framework for measuring LLM Overton Windows (OWs), defined as the range of political opinions a model can reliably express on controversial topics, and for quantifying how simple natural-language jailbreaks expand that range. We evaluate more than 30 LLMs spanning 10 model families and five countries of origin. We find systematic asymmetries in political expressivity: open-source LLMs are typically more willing to generate left-leaning social media content, OWs tend to contract inversely to model size, and regional differences are substantial despite uneven representation in the open-source ecosystem. Jailbreak potency also varies sharply across model families, motivating a workflow for identifying effective combinations of jailbreak techniques. Taken together, our results establish a practical framework for auditing the political steerability of open-source LLMs and for helping future researchers design stronger countermeasures against LLM-enabled influence campaigns.