LoSoNA: Ein Benchmark für die Anpassung lokaler sozialer Normen in Gruppengesprächen

Zusammenfassung

Online-Gruppenchats sind soziale Räume mit lokalen Konversationsnormen, die selten explizit genannt werden. Die Fähigkeit und Bereitschaft von auf LLM basierenden Agenten, diese Normen zu erkennen und sich an sie anzupassen, ist bislang weitgehend unerforscht. Wir stellen LoSoNA vor, einen Benchmark zur Anpassung an lokale soziale Normen in Mehrparteien-Chats. Jedes Szenario präsentiert einem Subjektmodell ein kuratiertes Gruppenchat-Transkript, in dem nicht am Subjekt beteiligte Teilnehmer eine verborgene lokale Norm demonstrieren, gefolgt von einer abschließenden auslösenden Wendung, die eine Antwort erzwingt, die offenbart, ob das Subjekt diese Norm abgeleitet hat. Wir evaluieren acht Frontier- und Open-Weight-Modelle unter vier Prompting-Bedingungen, die variieren, wie explizit das Modell angewiesen wird, den vorherigen Konversationsverlauf als Hinweis darauf zu behandeln, wie es antworten soll. Naives Prompting bleibt für die meisten Modelle begrenzt; explizites normbewusstes Prompting hilft ungleichmäßig, wobei Gemini 3.1 Pro 84,2 % und Claude Fable 5 81,6 % erreichen, während mehrere andere Modelle nur geringe Zugewinne oder Regressionen aufweisen. LoSoNA trägt zu aktuellen Forderungen nach der Bewertung sozialer Fähigkeiten von LLMs bei, indem es testet, ob Modelle lokale Konversationsnormen aus Präzedenzfällen ableiten und in einer einmaligen Gruppenchat-Antwort anwenden können.

English

Online group chats are social spaces with local conversational norms that are rarely stated explicitly. The ability and willingness of LLM-based agents to recognize and adapt to these norms remains mostly unexplored. We introduce LoSoNA, a benchmark for local social norm adaptation in multi-party chat. Each scenario gives a subject model a curated group-chat transcript in which non-subject participants demonstrate a hidden local norm, followed by a final elicitor turn that forces a response revealing whether the subject has inferred that norm. We evaluate eight frontier and open-weight models under four prompting conditions that vary how explicitly the model is told to treat the prior conversation as evidence for how it should answer. Naive prompting remains limited for most models; explicit norm-aware prompting helps unevenly, with Gemini 3.1 Pro reaching 84.2% and Claude Fable 5 reaching 81.6%, while several other models show small gains or regressions. LoSoNA contributes to recent calls for evaluating LLM social capabilities by testing whether models can infer local conversational norms from precedent and use them in a one-turn group-chat response.