LoSoNA: Een Benchmark voor Lokale Sociale Normaanpassing in Groepsgesprekken

Samenvatting

Online groepsgesprekken zijn sociale ruimtes met lokale gespreksnormen die zelden expliciet worden vermeld. Het vermogen en de bereidheid van op LLM gebaseerde agenten om deze normen te herkennen en zich eraan aan te passen, blijft grotendeels onontgonnen. We introduceren LoSoNA, een benchmark voor aanpassing aan lokale sociale normen in meerpartijengesprekken. Elk scenario geeft een proefmodel een samengesteld transcript van een groepsgesprek waarin niet-proefdeelnemers een verborgen lokale norm demonstreren, gevolgd door een laatste uitlokkende beurt die een antwoord afdwingt dat onthult of het proefmodel die norm heeft afgeleid. We evalueren acht grensverleggende en opengewichtmodellen onder vier promptcondities die variëren in hoe expliciet het model wordt verteld om de eerdere conversatie te behandelen als bewijs voor hoe het moet antwoorden. Naïef prompten blijft beperkt voor de meeste modellen; expliciet normbewust prompten helpt ongelijkmatig, waarbij Gemini 3.1 Pro 84,2% haalt en Claude Fable 5 81,6%, terwijl verschillende andere modellen kleine winsten of terugval tonen. LoSoNA draagt bij aan recente oproepen om sociale capaciteiten van LLM's te evalueren door te testen of modellen lokale gespreksnormen uit precedenten kunnen afleiden en deze kunnen gebruiken in een eenmalige beurt in een groepsgesprek.

English

Online group chats are social spaces with local conversational norms that are rarely stated explicitly. The ability and willingness of LLM-based agents to recognize and adapt to these norms remains mostly unexplored. We introduce LoSoNA, a benchmark for local social norm adaptation in multi-party chat. Each scenario gives a subject model a curated group-chat transcript in which non-subject participants demonstrate a hidden local norm, followed by a final elicitor turn that forces a response revealing whether the subject has inferred that norm. We evaluate eight frontier and open-weight models under four prompting conditions that vary how explicitly the model is told to treat the prior conversation as evidence for how it should answer. Naive prompting remains limited for most models; explicit norm-aware prompting helps unevenly, with Gemini 3.1 Pro reaching 84.2% and Claude Fable 5 reaching 81.6%, while several other models show small gains or regressions. LoSoNA contributes to recent calls for evaluating LLM social capabilities by testing whether models can infer local conversational norms from precedent and use them in a one-turn group-chat response.