ChatPaper.aiChatPaper

El Eje de Granularidad: Una Dirección Latente de Micro a Macro para los Roles Sociales en Modelos de Lenguaje

The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

May 7, 2026
Autores: Chonghan Qin, Xiachong Feng, Ziyun Song, Xiaocheng Feng, Jing Xiong, Lingpeng Kong
cs.AI

Resumen

Los grandes modelos de lenguaje (LLM) son frecuentemente instruidos para asumir roles sociales que van desde individuos hasta instituciones, sin embargo, aún no está claro si sus representaciones internas codifican la granularidad de dichos roles, desde la experiencia individual a nivel micro hasta el razonamiento organizacional, institucional o nacional a nivel macro. Demostramos que sí lo hacen. Definimos un Eje de Granularidad basado en contraste como la diferencia entre los estados ocultos promedio de roles macro y micro. En Qwen3-8B, este eje se alinea con el eje principal (PC1) del espacio de representación de roles con un coseno de 0.972 y explica el 52.6% de su varianza, lo que indica que la granularidad es el eje geométrico dominante que organiza los roles sociales solicitados. Construimos 75 roles sociales en cinco niveles de granularidad y recopilamos 91,200 respuestas condicionadas por roles sobre preguntas compartidas y variantes de instrucción, luego extraemos los estados ocultos a nivel de rol y los proyectamos sobre el eje. Las proyecciones de los roles aumentan monótonamente en los cinco niveles, se mantienen estables entre capas, variantes de instrucción, definiciones de punto final, particiones de datos de prueba y subconjuntos filtrados por puntuación, y se transfieren a Llama-3.1-8B-Instruct. El eje también es causalmente relevante: la activación dirigida a lo largo de él modifica la granularidad de la respuesta en la dirección predicha, con Llama pasando de 2.00 a 3.17 en una escala macro de cinco puntos bajo una activación positiva en instrucciones que admiten respuestas locales. Los dos modelos difieren en controllabilidad, lo que sugiere que la dirección depende del régimen operativo predeterminado de cada modelo. En general, nuestros hallazgos sugieren que la granularidad del rol social no es meramente una característica superficial de estilo, sino una dirección latente estructurada, ordenada y causalmente manipulable en el comportamiento de los modelos de lenguaje condicionados por roles.
English
Large language models (LLMs) are routinely prompted to take on social roles ranging from individuals to institutions, yet it remains unclear whether their internal representations encode the granularity of such roles, from micro-level individual experience to macro-level organizational, institutional, or national reasoning. We show that they do. We define a contrast-based Granularity Axis as the difference between mean macro- and micro-role hidden states. In Qwen3-8B, this axis aligns with the principal axis (PC1) of the role representation space at cosine 0.972 and accounts for 52.6% of its variance, indicating that granularity is the dominant geometric axis organizing prompted social roles. We construct 75 social roles across five granularity levels and collect 91,200 role-conditioned responses over shared questions and prompt variants, then extract role-level hidden states and project them onto the axis. Role projections increase monotonically across all five levels, remain stable across layers, prompt variants, endpoint definitions, held-out splits, and score-filtered subsets, and transfer to Llama-3.1-8B-Instruct. The axis is also causally relevant: activation steering along it shifts response granularity in the predicted direction, with Llama moving from 2.00 to 3.17 on a five-point macro scale under positive steering on prompts that admit local responses. The two models differ in controllability, suggesting that steering depends on each model's default operating regime. Overall, our findings suggest that social role granularity is not merely a stylistic surface feature, but a structured, ordered, and causally manipulable latent direction in role-conditioned language model behavior.
PDF42May 9, 2026