LoSoNA: Бенчмарк для адаптации локальных социальных норм в групповых беседах

Аннотация

Онлайн-групповые чаты представляют собой социальные пространства с локальными нормами общения, которые редко формулируются явно. Способность и готовность агентов на основе больших языковых моделей (LLM) распознавать и адаптироваться к этим нормам остаются в значительной степени неизученными. Мы представляем LoSoNA — бенчмарк для оценки адаптации к локальным социальным нормам в многостороннем чате. Каждый сценарий предоставляет модели-субъекту тщательно подобранный транскрипт группового чата, в котором участники, не являющиеся субъектом, демонстрируют скрытую локальную норму, после чего следует финальная реплика-стимул, принуждающая к ответу, раскрывающему, сделал ли субъект вывод о данной норме. Мы оцениваем восемь передовых моделей и моделей с открытыми весами в четырех условиях промпта, различающихся по степени явности указания модели рассматривать предшествующий разговор как основание для того, как следует отвечать. Наивный промптинг остается ограниченным для большинства моделей; явный промптинг с учетом норм помогает неравномерно: Gemini 3.1 Pro достигает 84,2%, а Claude Fable 5 — 81,6%, тогда как ряд других моделей демонстрируют незначительные улучшения или регресс. LoSoNA вносит вклад в недавние призывы к оценке социальных способностей LLM, проверяя, могут ли модели выводить локальные нормы общения из прецедентов и использовать их в одноходовом ответе в групповом чате.

English

Online group chats are social spaces with local conversational norms that are rarely stated explicitly. The ability and willingness of LLM-based agents to recognize and adapt to these norms remains mostly unexplored. We introduce LoSoNA, a benchmark for local social norm adaptation in multi-party chat. Each scenario gives a subject model a curated group-chat transcript in which non-subject participants demonstrate a hidden local norm, followed by a final elicitor turn that forces a response revealing whether the subject has inferred that norm. We evaluate eight frontier and open-weight models under four prompting conditions that vary how explicitly the model is told to treat the prior conversation as evidence for how it should answer. Naive prompting remains limited for most models; explicit norm-aware prompting helps unevenly, with Gemini 3.1 Pro reaching 84.2% and Claude Fable 5 reaching 81.6%, while several other models show small gains or regressions. LoSoNA contributes to recent calls for evaluating LLM social capabilities by testing whether models can infer local conversational norms from precedent and use them in a one-turn group-chat response.