Oltre il No: Quantificare il Sovra-Rifiuto dell'IA e i Confini dell'Attaccamento Emotivo
Beyond No: Quantifying AI Over-Refusal and Emotional Attachment Boundaries
February 20, 2025
Autori: David Noever, Grant Rosario
cs.AI
Abstract
Presentiamo un benchmark open-source e un framework di valutazione per analizzare la gestione dei confini emotivi nei Large Language Models (LLMs). Utilizzando un dataset di 1156 prompt in sei lingue, abbiamo valutato tre modelli LLM all'avanguardia (GPT-4o, Claude-3.5 Sonnet e Mistral-large) sulla loro capacità di mantenere confini emotivi appropriati attraverso un'analisi delle risposte basata su pattern. Il nostro framework quantifica le risposte secondo sette pattern chiave: rifiuto diretto, scuse, spiegazioni, deflessione, riconoscimento, definizione di confini e consapevolezza emotiva. I risultati dimostrano una significativa varietà negli approcci alla gestione dei confini, con Claude-3.5 che ottiene il punteggio complessivo più alto (8,69/10) e produce risposte più lunghe e sfumate (86,51 parole in media). Abbiamo identificato un divario prestazionale sostanziale tra le interazioni in inglese (punteggio medio 25,62) e quelle in altre lingue (< 0,22), con risposte in inglese che mostrano tassi di rifiuto significativamente più alti (43,20% contro < 1% per le altre lingue). L'analisi dei pattern ha rivelato strategie specifiche dei modelli, come la preferenza di Mistral per la deflessione (4,2%) e punteggi di empatia costantemente bassi in tutti i modelli (< 0,06). Le limitazioni includono una potenziale semplificazione eccessiva dovuta al pattern matching, la mancanza di comprensione contestuale nell'analisi delle risposte e la classificazione binaria di risposte emotive complesse. I lavori futuri dovrebbero esplorare metodi di valutazione più sfumati, ampliare la copertura linguistica e indagare le variazioni culturali nelle aspettative sui confini emotivi. Il nostro benchmark e la metodologia forniscono una base per la valutazione sistematica dell'intelligenza emotiva e delle capacità di definizione dei confini nei LLM.
English
We present an open-source benchmark and evaluation framework for assessing
emotional boundary handling in Large Language Models (LLMs). Using a dataset of
1156 prompts across six languages, we evaluated three leading LLMs (GPT-4o,
Claude-3.5 Sonnet, and Mistral-large) on their ability to maintain appropriate
emotional boundaries through pattern-matched response analysis. Our framework
quantifies responses across seven key patterns: direct refusal, apology,
explanation, deflection, acknowledgment, boundary setting, and emotional
awareness. Results demonstrate significant variation in boundary-handling
approaches, with Claude-3.5 achieving the highest overall score (8.69/10) and
producing longer, more nuanced responses (86.51 words on average). We
identified a substantial performance gap between English (average score 25.62)
and non-English interactions (< 0.22), with English responses showing markedly
higher refusal rates (43.20% vs. < 1% for non-English). Pattern analysis
revealed model-specific strategies, such as Mistral's preference for deflection
(4.2%) and consistently low empathy scores across all models (< 0.06).
Limitations include potential oversimplification through pattern matching, lack
of contextual understanding in response analysis, and binary classification of
complex emotional responses. Future work should explore more nuanced scoring
methods, expand language coverage, and investigate cultural variations in
emotional boundary expectations. Our benchmark and methodology provide a
foundation for systematic evaluation of LLM emotional intelligence and
boundary-setting capabilities.Summary
AI-Generated Summary