LoSoNA: Un Punto de Referencia para la Adaptación Local de Normas Sociales en Conversaciones de Grupo

Resumen

Los chats grupales en línea son espacios sociales con normas conversacionales locales que rara vez se explicitan. La capacidad y disposición de los agentes basados en modelos de lenguaje grande (LLM) para reconocer y adaptarse a estas normas sigue siendo un área escasamente explorada. Presentamos LoSoNA, un punto de referencia para la adaptación a normas sociales locales en chats multipartitos. Cada escenario proporciona al modelo evaluado una transcripción curada de un chat grupal en la que los participantes no evaluados demuestran una norma local oculta, seguida de un turno elicitor final que fuerza una respuesta que revela si el modelo evaluado ha inferido dicha norma. Evaluamos ocho modelos frontera y de peso abierto bajo cuatro condiciones de indicación que varían en cuán explícitamente se le indica al modelo que trate la conversación previa como evidencia sobre cómo debe responder. La indicación ingenua sigue siendo limitada para la mayoría de los modelos; la indicación explícita con conciencia de normas ayuda de manera desigual: Gemini 3.1 Pro alcanza un 84.2% y Claude Fable 5 un 81.6%, mientras que varios otros modelos muestran pequeñas ganancias o retrocesos. LoSoNA contribuye a los recientes llamados a evaluar las capacidades sociales de los LLM al probar si los modelos pueden inferir normas conversacionales locales a partir de precedentes y utilizarlas en una respuesta de un solo turno en un chat grupal.

English

Online group chats are social spaces with local conversational norms that are rarely stated explicitly. The ability and willingness of LLM-based agents to recognize and adapt to these norms remains mostly unexplored. We introduce LoSoNA, a benchmark for local social norm adaptation in multi-party chat. Each scenario gives a subject model a curated group-chat transcript in which non-subject participants demonstrate a hidden local norm, followed by a final elicitor turn that forces a response revealing whether the subject has inferred that norm. We evaluate eight frontier and open-weight models under four prompting conditions that vary how explicitly the model is told to treat the prior conversation as evidence for how it should answer. Naive prompting remains limited for most models; explicit norm-aware prompting helps unevenly, with Gemini 3.1 Pro reaching 84.2% and Claude Fable 5 reaching 81.6%, while several other models show small gains or regressions. LoSoNA contributes to recent calls for evaluating LLM social capabilities by testing whether models can infer local conversational norms from precedent and use them in a one-turn group-chat response.