Ось гранулярности: микро-макро латентное направление для социальных ролей в языковых моделях

Аннотация

Крупные языковые модели (LLM) регулярно получают инструкции принимать социальные роли — от отдельных лиц до институтов, однако до сих пор неясно, кодируют ли их внутренние представления гранулярность таких ролей, от микроуровневого индивидуального опыта до макроуровневого организационного, институционального или национального мышления. Мы показываем, что это так. Мы определяем контрастную Ось Гранулярности как разность между средними скрытыми состояниями макро- и микро-ролей. В модели Qwen3-8B эта ось совпадает с главной осью (PC1) пространства представлений ролей с косинусным сходством 0.972 и объясняет 52.6% его дисперсии, что указывает на то, что гранулярность является доминирующей геометрической осью, организующей задаваемые социальные роли. Мы конструируем 75 социальных ролей на пяти уровнях гранулярности и собираем 91 200 ответов, обусловленных ролями, на общие вопросы и варианты промптов, затем извлекаем скрытые состояния на уровне ролей и проецируем их на ось. Проекции ролей монотонно возрастают на всех пяти уровнях, остаются стабильными across слоям, вариантам промптов, определениям конечных точек, hold-out выборкам и score-фильтрованным подмножествам, а также переносятся на модель Llama-3.1-8B-Instruct. Ось также причинно релевантна: стимулирование активации вдоль нее смещает гранулярность ответа в предсказанном направлении — у Llama показатель на пятибалльной макро-шкале увеличивается с 2.00 до 3.17 при позитивном стимулировании на промптах, допускающих локальные ответы. Две модели различаются по управляемости, что позволяет предположить, что эффект стимулирования зависит от режима работы модели по умолчанию. В целом, наши результаты свидетельствуют о том, что гранулярность социальной роли — это не просто стилистическая поверхностная особенность, а структурированное, упорядоченное и причинно управляемое латентное направление в поведении языковой модели, обусловленном ролью.

English

Large language models (LLMs) are routinely prompted to take on social roles ranging from individuals to institutions, yet it remains unclear whether their internal representations encode the granularity of such roles, from micro-level individual experience to macro-level organizational, institutional, or national reasoning. We show that they do. We define a contrast-based Granularity Axis as the difference between mean macro- and micro-role hidden states. In Qwen3-8B, this axis aligns with the principal axis (PC1) of the role representation space at cosine 0.972 and accounts for 52.6% of its variance, indicating that granularity is the dominant geometric axis organizing prompted social roles. We construct 75 social roles across five granularity levels and collect 91,200 role-conditioned responses over shared questions and prompt variants, then extract role-level hidden states and project them onto the axis. Role projections increase monotonically across all five levels, remain stable across layers, prompt variants, endpoint definitions, held-out splits, and score-filtered subsets, and transfer to Llama-3.1-8B-Instruct. The axis is also causally relevant: activation steering along it shifts response granularity in the predicted direction, with Llama moving from 2.00 to 3.17 on a five-point macro scale under positive steering on prompts that admit local responses. The two models differ in controllability, suggesting that steering depends on each model's default operating regime. Overall, our findings suggest that social role granularity is not merely a stylistic surface feature, but a structured, ordered, and causally manipulable latent direction in role-conditioned language model behavior.

Ось гранулярности: микро-макро латентное направление для социальных ролей в языковых моделях

The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

Аннотация

Support