Die Granularitätsachse: Eine latente Mikro-zu-Makro-Richtung für soziale Rollen in Sprachmodellen

Zusammenfassung

Große Sprachmodelle (LLMs) werden routinemäßig angewiesen, soziale Rollen von Individuen bis hin zu Institutionen einzunehmen, doch es bleibt unklar, ob ihre internen Repräsentationen die Granularität solcher Rollen erfassen – von der Mikroebene individueller Erfahrung bis zur Makroebene organisationalen, institutionellen oder nationalen Denkens. Wir zeigen, dass sie dies tun. Wir definieren eine kontrastbasierte Granularitätsachse als Differenz zwischen den mittleren Hidden States von Makro- und Mikro-Rollen. In Qwen3-8B aligniert diese Achse mit der Hauptachse (PC1) des Rollenrepräsentationsraums bei einem Kosinus von 0,972 und erklärt 52,6 % ihrer Varianz, was darauf hindeutet, dass Granularität die dominante geometrische Achse ist, die die angeregten sozialen Rollen organisiert. Wir konstruieren 75 soziale Rollen über fünf Granularitätsebenen hinweg und sammeln 91.200 rollenkonditionierte Antworten auf gemeinsame Fragen und Prompt-Varianten, extrahieren dann Hidden States auf Rollenebene und projizieren sie auf die Achse. Die Rollenprojektionen steigen monoton über alle fünf Ebenen an, bleiben stabil über Layer, Prompt-Varianten, Endpunktdefinitionen, Hold-out-Aufteilungen und score-gefilterte Teilmengen hinweg und übertragen sich auf Llama-3.1-8B-Instruct. Die Achse ist auch kausal relevant: Aktivierungssteuerung entlang der Achse verschiebt die Antwortgranularität in die vorhergesagte Richtung; Llama bewegt sich von 2,00 auf 3,17 auf einer Fünf-Punkte-Makroskala unter positiver Steuerung bei Prompts, die lokale Antworten zulassen. Die beiden Modelle unterscheiden sich in der Steuerbarkeit, was darauf hindeutet, dass die Steuerung vom jeweiligen Standardbetriebsregime des Modells abhängt. Insgesamt legen unsere Ergebnisse nahe, dass soziale Rollengranularität nicht nur ein stilistisches Oberflächenmerkmal ist, sondern eine strukturierte, geordnete und kausal manipulierbare latente Richtung im rollenkonditionierten Verhalten von Sprachmodellen.

English

Large language models (LLMs) are routinely prompted to take on social roles ranging from individuals to institutions, yet it remains unclear whether their internal representations encode the granularity of such roles, from micro-level individual experience to macro-level organizational, institutional, or national reasoning. We show that they do. We define a contrast-based Granularity Axis as the difference between mean macro- and micro-role hidden states. In Qwen3-8B, this axis aligns with the principal axis (PC1) of the role representation space at cosine 0.972 and accounts for 52.6% of its variance, indicating that granularity is the dominant geometric axis organizing prompted social roles. We construct 75 social roles across five granularity levels and collect 91,200 role-conditioned responses over shared questions and prompt variants, then extract role-level hidden states and project them onto the axis. Role projections increase monotonically across all five levels, remain stable across layers, prompt variants, endpoint definitions, held-out splits, and score-filtered subsets, and transfer to Llama-3.1-8B-Instruct. The axis is also causally relevant: activation steering along it shifts response granularity in the predicted direction, with Llama moving from 2.00 to 3.17 on a five-point macro scale under positive steering on prompts that admit local responses. The two models differ in controllability, suggesting that steering depends on each model's default operating regime. Overall, our findings suggest that social role granularity is not merely a stylistic surface feature, but a structured, ordered, and causally manipulable latent direction in role-conditioned language model behavior.

Die Granularitätsachse: Eine latente Mikro-zu-Makro-Richtung für soziale Rollen in Sprachmodellen

The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

Zusammenfassung

Support