LoSoNA: Um Benchmark para Adaptação de Normas Sociais Locais em Conversas em Grupo

Resumo

Grupos de chat online são espaços sociais com normas conversacionais locais que raramente são explicitamente declaradas. A capacidade e a disposição de agentes baseados em LLM para reconhecer e se adaptar a essas normas permanecem praticamente inexploradas. Apresentamos o LoSoNA, um benchmark para adaptação a normas sociais locais em conversas multiparticipantes. Cada cenário fornece ao modelo-sujeito uma transcrição selecionada de um chat em grupo, na qual os participantes não-sujeito demonstram uma norma local oculta, seguida por uma rodada eliciadora final que força uma resposta revelando se o sujeito inferiu essa norma. Avaliamos oito modelos de fronteira e de pesos abertos sob quatro condições de prompt que variam o quão explicitamente o modelo é instruído a tratar a conversa anterior como evidência para como deve responder. Prompts ingênuos continuam limitados para a maioria dos modelos; prompts explícitos com consciência de norma ajudam de forma desigual, com o Gemini 3.1 Pro atingindo 84,2% e o Claude Fable 5 atingindo 81,6%, enquanto vários outros modelos apresentam pequenos ganhos ou regressões. O LoSoNA contribui para os recentes apelos por avaliação de capacidades sociais de LLMs ao testar se os modelos podem inferir normas conversacionais locais a partir de precedentes e utilizá-las em uma resposta de chat em grupo de uma única rodada.

English

Online group chats are social spaces with local conversational norms that are rarely stated explicitly. The ability and willingness of LLM-based agents to recognize and adapt to these norms remains mostly unexplored. We introduce LoSoNA, a benchmark for local social norm adaptation in multi-party chat. Each scenario gives a subject model a curated group-chat transcript in which non-subject participants demonstrate a hidden local norm, followed by a final elicitor turn that forces a response revealing whether the subject has inferred that norm. We evaluate eight frontier and open-weight models under four prompting conditions that vary how explicitly the model is told to treat the prior conversation as evidence for how it should answer. Naive prompting remains limited for most models; explicit norm-aware prompting helps unevenly, with Gemini 3.1 Pro reaching 84.2% and Claude Fable 5 reaching 81.6%, while several other models show small gains or regressions. LoSoNA contributes to recent calls for evaluating LLM social capabilities by testing whether models can infer local conversational norms from precedent and use them in a one-turn group-chat response.