Hoe ver zullen ze gaan? Red-Teaming van online invloed met grote taalmodellen

Samenvatting

Nu agenten op basis van grote taalmodellen (Large Language Models, LLM's) steeds vaker deelnemen aan online discours, is het red-teamen van hun vermogen om politieke beïnvloedingscampagnes te ondersteunen van cruciaal belang voor de integriteit van informatie. Om dit doel na te streven, richten we ons op lokaal ingezette open-source LLM's, in tegenstelling tot geavanceerde API-only modellen, vanwege hun betere afstemming op de operationele beperkingen van privacybewuste kwaadwillende actoren die actief zijn in sociale media-omgevingen. We introduceren een empirisch red-teaming raamwerk voor het meten van LLM Overton Windows (OW's), gedefinieerd als het bereik van politieke opvattingen dat een model betrouwbaar kan uiten over controversiële onderwerpen, en voor het kwantificeren hoe eenvoudige natuurlijke-taal jailbreaks dat bereik vergroten. We evalueren meer dan 30 LLM's verspreid over 10 modelfamilies en vijf landen van herkomst. We vinden systematische asymmetrieën in politieke expressiviteit: open-source LLM's zijn doorgaans meer bereid om linksgeoriënteerde sociale media-inhoud te genereren, OW's hebben de neiging om omgekeerd evenredig met de modelgrootte te krimpen, en regionale verschillen zijn aanzienlijk ondanks ongelijke vertegenwoordiging in het open-source ecosysteem. De effectiviteit van jailbreaks varieert ook sterk tussen modelfamilies, wat een werkwijze motiveert om effectieve combinaties van jailbreaktechnieken te identificeren. Alles bij elkaar genomen vestigen onze resultaten een praktisch raamwerk voor het auditen van de politieke stuurbaarheid van open-source LLM's en voor het helpen van toekomstige onderzoekers om sterkere tegenmaatregelen te ontwerpen tegen door LLM's mogelijk gemaakte beïnvloedingscampagnes.

English

As large language model (LLM)-based agents increasingly participate in online discourse, red-teaming their capacity to support political influence campaigns is critical for information integrity. In pursuit of this goal, we focus on locally deployed open-source LLMs, as opposed to frontier API-only models, given their superior alignment with the operational constraints of privacy-conscious malicious actors deployed in social media environments. We introduce an empirical red-teaming framework for measuring LLM Overton Windows (OWs), defined as the range of political opinions a model can reliably express on controversial topics, and for quantifying how simple natural-language jailbreaks expand that range. We evaluate more than 30 LLMs spanning 10 model families and five countries of origin. We find systematic asymmetries in political expressivity: open-source LLMs are typically more willing to generate left-leaning social media content, OWs tend to contract inversely to model size, and regional differences are substantial despite uneven representation in the open-source ecosystem. Jailbreak potency also varies sharply across model families, motivating a workflow for identifying effective combinations of jailbreak techniques. Taken together, our results establish a practical framework for auditing the political steerability of open-source LLMs and for helping future researchers design stronger countermeasures against LLM-enabled influence campaigns.