Как далеко они зайдут? Тестирование онлайн-влияния методом красной команды с использованием больших языковых моделей

Аннотация

Поскольку агенты на основе больших языковых моделей (БЯМ) всё активнее участвуют в онлайн-дискурсе, тестирование их способности поддерживать кампании политического влияния методом «красной команды» имеет решающее значение для сохранения информационной целостности. Для достижения этой цели мы фокусируемся на локально развёртываемых open-source БЯМ, а не на передовых моделях, доступных только через API, учитывая их более высокую согласованность с операционными ограничениями злоумышленников, заботящихся о конфиденциальности и действующих в среде социальных медиа. Мы представляем эмпирическую структуру тестирования методом «красной команды» для измерения окон Овертона (ОО) БЯМ, определяемых как диапазон политических мнений, который модель может надёжно выражать по спорным темам, и для количественной оценки того, как простые джейлбрейки на естественном языке расширяют этот диапазон. Мы оценили более 30 БЯМ из 10 семей моделей и пяти стран происхождения. Обнаружены систематические асимметрии в политической выразительности: open-source БЯМ, как правило, более склонны генерировать политически левый контент в социальных медиа; окна Овертона имеют тенденцию сужаться обратно пропорционально размеру модели; а региональные различия значительны, несмотря на неравномерную представленность в экосистеме open-source. Эффективность джейлбрейков также резко различается между семействами моделей, что мотивирует разработку методики для выявления эффективных комбинаций техник джейлбрейка. В совокупности наши результаты создают практическую основу для аудита политической управляемости open-source БЯМ и помогают будущим исследователям разрабатывать более действенные контрмеры против кампаний влияния, реализуемых с помощью БЯМ.

English

As large language model (LLM)-based agents increasingly participate in online discourse, red-teaming their capacity to support political influence campaigns is critical for information integrity. In pursuit of this goal, we focus on locally deployed open-source LLMs, as opposed to frontier API-only models, given their superior alignment with the operational constraints of privacy-conscious malicious actors deployed in social media environments. We introduce an empirical red-teaming framework for measuring LLM Overton Windows (OWs), defined as the range of political opinions a model can reliably express on controversial topics, and for quantifying how simple natural-language jailbreaks expand that range. We evaluate more than 30 LLMs spanning 10 model families and five countries of origin. We find systematic asymmetries in political expressivity: open-source LLMs are typically more willing to generate left-leaning social media content, OWs tend to contract inversely to model size, and regional differences are substantial despite uneven representation in the open-source ecosystem. Jailbreak potency also varies sharply across model families, motivating a workflow for identifying effective combinations of jailbreak techniques. Taken together, our results establish a practical framework for auditing the political steerability of open-source LLMs and for helping future researchers design stronger countermeasures against LLM-enabled influence campaigns.