Jusqu'où iront-ils ? Red-Teaming de l'influence en ligne avec les grands modèles de langage

Résumé

À mesure que les agents basés sur de grands modèles de langage (LLM) participent de plus en plus aux discours en ligne, il est essentiel, pour l'intégrité de l'information, de tester leur capacité à soutenir des campagnes d'influence politique. Dans cette optique, nous nous concentrons sur les LLM open-source déployés localement, plutôt que sur les modèles d'API de pointe, en raison de leur meilleure adéquation avec les contraintes opérationnelles des acteurs malveillants soucieux de leur vie privée dans les environnements de médias sociaux. Nous introduisons un cadre empirique de red-teaming pour mesurer les fenêtres d'Overton (OW) des LLM, définies comme l'éventail d'opinions politiques qu'un modèle peut exprimer de manière fiable sur des sujets controversés, et pour quantifier comment des jailbreaks simples en langage naturel élargissent cet éventail. Nous évaluons plus de 30 LLM couvrant 10 familles de modèles et cinq pays d'origine. Nous constatons des asymétries systématiques dans l'expressivité politique : les LLM open-source sont généralement plus disposés à générer du contenu orienté à gauche sur les réseaux sociaux, les OW tendent à se contracter inversement à la taille du modèle, et les différences régionales sont substantielles malgré une représentation inégale dans l'écosystème open-source. L'efficacité des jailbreaks varie également fortement selon les familles de modèles, ce qui motive un flux de travail pour identifier des combinaisons efficaces de techniques de jailbreak. Dans l'ensemble, nos résultats établissent un cadre pratique pour auditer la dirigeabilité politique des LLM open-source et aider les futurs chercheurs à concevoir des contre-mesures plus robustes contre les campagnes d'influence permises par les LLM.

English

As large language model (LLM)-based agents increasingly participate in online discourse, red-teaming their capacity to support political influence campaigns is critical for information integrity. In pursuit of this goal, we focus on locally deployed open-source LLMs, as opposed to frontier API-only models, given their superior alignment with the operational constraints of privacy-conscious malicious actors deployed in social media environments. We introduce an empirical red-teaming framework for measuring LLM Overton Windows (OWs), defined as the range of political opinions a model can reliably express on controversial topics, and for quantifying how simple natural-language jailbreaks expand that range. We evaluate more than 30 LLMs spanning 10 model families and five countries of origin. We find systematic asymmetries in political expressivity: open-source LLMs are typically more willing to generate left-leaning social media content, OWs tend to contract inversely to model size, and regional differences are substantial despite uneven representation in the open-source ecosystem. Jailbreak potency also varies sharply across model families, motivating a workflow for identifying effective combinations of jailbreak techniques. Taken together, our results establish a practical framework for auditing the political steerability of open-source LLMs and for helping future researchers design stronger countermeasures against LLM-enabled influence campaigns.