Wie weit werden sie gehen? Red-Teaming von Online-Einfluss mit großen Sprachmodellen

Zusammenfassung

Da LLM-basierte Agenten zunehmend an Online-Diskursen teilnehmen, ist das Red-Teaming ihrer Fähigkeit zur Unterstützung politischer Einflusskampagnen entscheidend für die Informationsintegrität. Zu diesem Zweck konzentrieren wir uns auf lokal eingesetzte Open-Source-LLMs, im Gegensatz zu reinen API-Modellen der Spitzenklasse, da sie besser mit den operationellen Einschränkungen von datenschutzbewussten böswilligen Akteuren übereinstimmen, die in Social-Media-Umgebungen agieren. Wir führen einen empirischen Red-Teaming-Rahmen ein, um die Overton-Fenster (OWs) von LLMs zu messen, definiert als die Bandbreite politischer Meinungen, die ein Modell zu kontroversen Themen zuverlässig äußern kann, sowie um zu quantifizieren, wie einfache natürlichsprachliche Jailbreaks diesen Bereich erweitern. Wir bewerten über 30 LLMs, die 10 Modellfamilien und fünf Herkunftsländer umfassen. Wir finden systematische Asymmetrien in der politischen Ausdrucksfähigkeit: Open-Source-LLMs sind typischerweise eher bereit, linksgerichtete Social-Media-Inhalte zu generieren, OWs tendieren dazu, sich umgekehrt zur Modellgröße zu verengen, und regionale Unterschiede sind erheblich, trotz ungleicher Repräsentation im Open-Source-Ökosystem. Die Jailbreak-Wirksamkeit variiert ebenfalls stark zwischen Modellfamilien, was einen Arbeitsablauf zur Identifizierung effektiver Kombinationen von Jailbreak-Techniken motiviert. Insgesamt etablieren unsere Ergebnisse einen praktischen Rahmen zur Prüfung der politischen Steuerbarkeit von Open-Source-LLMs und zur Unterstützung zukünftiger Forscher bei der Entwicklung stärkerer Gegenmaßnahmen gegen durch LLMs ermöglichte Einflusskampagnen.

English

As large language model (LLM)-based agents increasingly participate in online discourse, red-teaming their capacity to support political influence campaigns is critical for information integrity. In pursuit of this goal, we focus on locally deployed open-source LLMs, as opposed to frontier API-only models, given their superior alignment with the operational constraints of privacy-conscious malicious actors deployed in social media environments. We introduce an empirical red-teaming framework for measuring LLM Overton Windows (OWs), defined as the range of political opinions a model can reliably express on controversial topics, and for quantifying how simple natural-language jailbreaks expand that range. We evaluate more than 30 LLMs spanning 10 model families and five countries of origin. We find systematic asymmetries in political expressivity: open-source LLMs are typically more willing to generate left-leaning social media content, OWs tend to contract inversely to model size, and regional differences are substantial despite uneven representation in the open-source ecosystem. Jailbreak potency also varies sharply across model families, motivating a workflow for identifying effective combinations of jailbreak techniques. Taken together, our results establish a practical framework for auditing the political steerability of open-source LLMs and for helping future researchers design stronger countermeasures against LLM-enabled influence campaigns.