Voorbij Nee: Het Kwantificeren van AI Overweigering en Grenzen van Emotionele Verbondenheid
Beyond No: Quantifying AI Over-Refusal and Emotional Attachment Boundaries
February 20, 2025
Auteurs: David Noever, Grant Rosario
cs.AI
Samenvatting
We presenteren een open-source benchmark en evaluatieframework voor het beoordelen van het omgaan met emotionele grenzen in Large Language Models (LLMs). Met behulp van een dataset van 1156 prompts in zes talen hebben we drie toonaangevende LLMs (GPT-4o, Claude-3.5 Sonnet en Mistral-large) geëvalueerd op hun vermogen om gepaste emotionele grenzen te handhaven via patroongestuurde responsanalyse. Ons framework kwantificeert reacties aan de hand van zeven belangrijke patronen: directe weigering, verontschuldiging, uitleg, afleiding, erkenning, grenzen stellen en emotioneel bewustzijn. De resultaten tonen aanzienlijke variatie in de benaderingen van grensbeheer, waarbij Claude-3.5 de hoogste algemene score behaalde (8,69/10) en langere, genuanceerdere reacties produceerde (gemiddeld 86,51 woorden). We identificeerden een aanzienlijk prestatieverschil tussen Engelstalige (gemiddelde score 25,62) en niet-Engelstalige interacties (< 0,22), waarbij Engelstalige reacties een aanzienlijk hogere weigeringsgraad lieten zien (43,20% vs. < 1% voor niet-Engelstalig). Patroonanalyse onthulde modelspecifieke strategieën, zoals Mistrals voorkeur voor afleiding (4,2%) en consistent lage empathiescores bij alle modellen (< 0,06). Beperkingen omvatten mogelijke oversimplificatie door patroonherkenning, gebrek aan contextueel begrip in de responsanalyse en binaire classificatie van complexe emotionele reacties. Toekomstig werk zou zich moeten richten op genuanceerdere scoringsmethoden, uitbreiding van taaldekking en onderzoek naar culturele variaties in verwachtingen rond emotionele grenzen. Onze benchmark en methodologie bieden een basis voor systematische evaluatie van de emotionele intelligentie en grensstellende capaciteiten van LLMs.
English
We present an open-source benchmark and evaluation framework for assessing
emotional boundary handling in Large Language Models (LLMs). Using a dataset of
1156 prompts across six languages, we evaluated three leading LLMs (GPT-4o,
Claude-3.5 Sonnet, and Mistral-large) on their ability to maintain appropriate
emotional boundaries through pattern-matched response analysis. Our framework
quantifies responses across seven key patterns: direct refusal, apology,
explanation, deflection, acknowledgment, boundary setting, and emotional
awareness. Results demonstrate significant variation in boundary-handling
approaches, with Claude-3.5 achieving the highest overall score (8.69/10) and
producing longer, more nuanced responses (86.51 words on average). We
identified a substantial performance gap between English (average score 25.62)
and non-English interactions (< 0.22), with English responses showing markedly
higher refusal rates (43.20% vs. < 1% for non-English). Pattern analysis
revealed model-specific strategies, such as Mistral's preference for deflection
(4.2%) and consistently low empathy scores across all models (< 0.06).
Limitations include potential oversimplification through pattern matching, lack
of contextual understanding in response analysis, and binary classification of
complex emotional responses. Future work should explore more nuanced scoring
methods, expand language coverage, and investigate cultural variations in
emotional boundary expectations. Our benchmark and methodology provide a
foundation for systematic evaluation of LLM emotional intelligence and
boundary-setting capabilities.Summary
AI-Generated Summary