L'axe de granularité : une direction latente du micro au macro pour les rôles sociaux dans les modèles de langage

Résumé

Les grands modèles de langage (LLM) sont régulièrement sollicités pour endosser des rôles sociaux allant des individus aux institutions, mais on ignore encore si leurs représentations internes codent la granularité de ces rôles, depuis l'expérience individuelle au niveau micro jusqu'au raisonnement organisationnel, institutionnel ou national au niveau macro. Nous démontrons que c'est le cas. Nous définissons un Axe de Granularité basé sur le contraste comme la différence entre les états cachés moyens des rôles macro et micro. Dans Qwen3-8B, cet axe s'aligne avec l'axe principal (PC1) de l'espace de représentation des rôles avec un cosinus de 0,972 et explique 52,6 % de sa variance, indiquant que la granularité est l'axe géométrique dominant organisant les rôles sociaux sollicités. Nous construisons 75 rôles sociaux répartis sur cinq niveaux de granularité et collectons 91 200 réponses conditionnées par le rôle sur des questions partagées et des variantes d'invite, puis extrayons les états cachés au niveau du rôle et les projetons sur l'axe. Les projections des rôles augmentent de manière monotone sur les cinq niveaux, restent stables entre les couches, les variantes d'invite, les définitions des points finaux, les partitions de validation et les sous-ensembles filtrés par score, et se transfèrent à Llama-3.1-8B-Instruct. L'axe est aussi causalement pertinent : un pilotage par activation le long de celui-ci modifie la granularité des réponses dans la direction prédite, Llama passant de 2,00 à 3,17 sur une échelle macro en cinq points sous pilotage positif sur des invites admettant des réponses locales. Les deux modèles diffèrent en contrôlabilité, suggérant que le pilotage dépend du régime opératoire par défaut de chaque modèle. Globalement, nos résultats suggèrent que la granularité des rôles sociaux n'est pas qu'une caractéristique de surface stylistique, mais une direction latente structurée, ordonnée et causalement manipulable dans le comportement des modèles de langage conditionnés par le rôle.

English

Large language models (LLMs) are routinely prompted to take on social roles ranging from individuals to institutions, yet it remains unclear whether their internal representations encode the granularity of such roles, from micro-level individual experience to macro-level organizational, institutional, or national reasoning. We show that they do. We define a contrast-based Granularity Axis as the difference between mean macro- and micro-role hidden states. In Qwen3-8B, this axis aligns with the principal axis (PC1) of the role representation space at cosine 0.972 and accounts for 52.6% of its variance, indicating that granularity is the dominant geometric axis organizing prompted social roles. We construct 75 social roles across five granularity levels and collect 91,200 role-conditioned responses over shared questions and prompt variants, then extract role-level hidden states and project them onto the axis. Role projections increase monotonically across all five levels, remain stable across layers, prompt variants, endpoint definitions, held-out splits, and score-filtered subsets, and transfer to Llama-3.1-8B-Instruct. The axis is also causally relevant: activation steering along it shifts response granularity in the predicted direction, with Llama moving from 2.00 to 3.17 on a five-point macro scale under positive steering on prompts that admit local responses. The two models differ in controllability, suggesting that steering depends on each model's default operating regime. Overall, our findings suggest that social role granularity is not merely a stylistic surface feature, but a structured, ordered, and causally manipulable latent direction in role-conditioned language model behavior.

L'axe de granularité : une direction latente du micro au macro pour les rôles sociaux dans les modèles de langage

The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

Résumé

Support