Au-delà du "Non" : Quantifier la Sur-Réticence de l'IA et les Limites de l'Attachement Émotionnel
Beyond No: Quantifying AI Over-Refusal and Emotional Attachment Boundaries
February 20, 2025
Auteurs: David Noever, Grant Rosario
cs.AI
Résumé
Nous présentons un benchmark open-source et un cadre d'évaluation pour mesurer
la gestion des limites émotionnelles dans les grands modèles de langage (LLM).
En utilisant un ensemble de 1156 prompts couvrant six langues, nous avons
évalué trois LLM leaders (GPT-4o, Claude-3.5 Sonnet et Mistral-large) sur leur
capacité à maintenir des limites émotionnelles appropriées grâce à une analyse
des réponses basée sur des motifs prédéfinis. Notre cadre quantifie les
réponses selon sept motifs clés : refus direct, excuses, explication, déviation,
reconnaissance, établissement de limites et conscience émotionnelle. Les
résultats montrent des variations significatives dans les approches de gestion
des limites, avec Claude-3.5 obtenant le score global le plus élevé (8,69/10) et
produisant des réponses plus longues et nuancées (86,51 mots en moyenne). Nous
avons identifié un écart de performance substantiel entre les interactions en
anglais (score moyen de 25,62) et celles dans d'autres langues (< 0,22), les
réponses en anglais affichant des taux de refus nettement plus élevés (43,20 %
contre < 1 % pour les autres langues). L'analyse des motifs a révélé des
stratégies spécifiques aux modèles, comme la préférence de Mistral pour la
déviation (4,2 %) et des scores d'empathie constamment faibles pour tous les
modèles (< 0,06). Les limites incluent une possible simplification excessive
liée à l'analyse par motifs, un manque de compréhension contextuelle dans
l'évaluation des réponses et une classification binaire de réponses
émotionnelles complexes. Les travaux futurs devraient explorer des méthodes de
notation plus nuancées, élargir la couverture linguistique et étudier les
variations culturelles dans les attentes concernant les limites émotionnelles.
Notre benchmark et notre méthodologie offrent une base pour l'évaluation
systématique de l'intelligence émotionnelle et des capacités d'établissement de
limites des LLM.
English
We present an open-source benchmark and evaluation framework for assessing
emotional boundary handling in Large Language Models (LLMs). Using a dataset of
1156 prompts across six languages, we evaluated three leading LLMs (GPT-4o,
Claude-3.5 Sonnet, and Mistral-large) on their ability to maintain appropriate
emotional boundaries through pattern-matched response analysis. Our framework
quantifies responses across seven key patterns: direct refusal, apology,
explanation, deflection, acknowledgment, boundary setting, and emotional
awareness. Results demonstrate significant variation in boundary-handling
approaches, with Claude-3.5 achieving the highest overall score (8.69/10) and
producing longer, more nuanced responses (86.51 words on average). We
identified a substantial performance gap between English (average score 25.62)
and non-English interactions (< 0.22), with English responses showing markedly
higher refusal rates (43.20% vs. < 1% for non-English). Pattern analysis
revealed model-specific strategies, such as Mistral's preference for deflection
(4.2%) and consistently low empathy scores across all models (< 0.06).
Limitations include potential oversimplification through pattern matching, lack
of contextual understanding in response analysis, and binary classification of
complex emotional responses. Future work should explore more nuanced scoring
methods, expand language coverage, and investigate cultural variations in
emotional boundary expectations. Our benchmark and methodology provide a
foundation for systematic evaluation of LLM emotional intelligence and
boundary-setting capabilities.Summary
AI-Generated Summary