LoSoNA : Un benchmark pour l'adaptation des normes sociales locales dans les conversations de groupe.

Résumé

Les groupes de discussion en ligne sont des espaces sociaux dotés de normes conversationnelles locales rarement explicitées. La capacité et la propension des agents basés sur les LLM à reconnaître et à s'adapter à ces normes reste largement inexplorée. Nous présentons LoSoNA, un référentiel pour l'adaptation aux normes sociales locales dans les conversations multipartites. Chaque scénario fournit au modèle sujet un transcript de discussion de groupe préétabli dans lequel les participants non sujets manifestent une norme locale cachée, suivi d'un tour de sollicitation final qui force une réponse révélant si le sujet a inféré cette norme. Nous évaluons huit modèles de pointe et à poids ouverts sous quatre conditions de sollicitation qui varient en fonction du degré d'explicitation donné au modèle pour traiter la conversation antérieure comme preuve de la manière dont il doit répondre. La sollicitation naïve reste limitée pour la plupart des modèles ; l'aide d'une sollicitation explicite prenant en compte les normes est inégale, Gemini 3.1 Pro atteignant 84,2 % et Claude Fable 5 atteignant 81,6 %, tandis que plusieurs autres modèles ne montrent que de faibles gains ou des régressions. LoSoNA contribue aux appels récents à évaluer les capacités sociales des LLM en testant si les modèles peuvent inférer des normes conversationnelles locales à partir de précédents et les utiliser dans une réponse de discussion de groupe en un seul tour.

English

Online group chats are social spaces with local conversational norms that are rarely stated explicitly. The ability and willingness of LLM-based agents to recognize and adapt to these norms remains mostly unexplored. We introduce LoSoNA, a benchmark for local social norm adaptation in multi-party chat. Each scenario gives a subject model a curated group-chat transcript in which non-subject participants demonstrate a hidden local norm, followed by a final elicitor turn that forces a response revealing whether the subject has inferred that norm. We evaluate eight frontier and open-weight models under four prompting conditions that vary how explicitly the model is told to treat the prior conversation as evidence for how it should answer. Naive prompting remains limited for most models; explicit norm-aware prompting helps unevenly, with Gemini 3.1 Pro reaching 84.2% and Claude Fable 5 reaching 81.6%, while several other models show small gains or regressions. LoSoNA contributes to recent calls for evaluating LLM social capabilities by testing whether models can infer local conversational norms from precedent and use them in a one-turn group-chat response.