Além do Não: Quantificando a Super-recusa da IA e o Vínculo Emocional Limites
Beyond No: Quantifying AI Over-Refusal and Emotional Attachment Boundaries
February 20, 2025
Autores: David Noever, Grant Rosario
cs.AI
Resumo
Apresentamos um benchmark e estrutura de avaliação de código aberto para avaliar o tratamento de limites emocionais em Modelos de Linguagem de Grande Escala (LLMs). Utilizando um conjunto de dados de 1156 estímulos em seis idiomas, avaliamos três principais LLMs (GPT-4o, Claude-3.5 Sonnet e Mistral-large) em sua capacidade de manter limites emocionais apropriados por meio de análise de respostas correspondentes a padrões. Nossa estrutura quantifica respostas em sete padrões-chave: recusa direta, pedido de desculpas, explicação, desvio, reconhecimento, estabelecimento de limites e consciência emocional. Os resultados demonstram variação significativa nas abordagens de tratamento de limites, com Claude-3.5 alcançando a maior pontuação geral (8,69/10) e produzindo respostas mais longas e mais nuances (86,51 palavras em média). Identificamos uma diferença de desempenho substancial entre interações em inglês (pontuação média de 25,62) e não em inglês (< 0,22), com respostas em inglês mostrando taxas de recusa significativamente mais altas (43,20% vs. < 1% para não em inglês). A análise de padrões revelou estratégias específicas de cada modelo, como a preferência de Mistral por desvio (4,2%) e pontuações consistentemente baixas de empatia em todos os modelos (< 0,06). Limitações incluem uma possível simplificação excessiva por meio de correspondência de padrões, falta de compreensão contextual na análise de respostas e classificação binária de respostas emocionais complexas. Trabalhos futuros devem explorar métodos de pontuação mais nuances, ampliar a cobertura de idiomas e investigar variações culturais nas expectativas de limites emocionais. Nosso benchmark e metodologia fornecem uma base para avaliação sistemática da inteligência emocional e capacidades de estabelecimento de limites de LLMs.
English
We present an open-source benchmark and evaluation framework for assessing
emotional boundary handling in Large Language Models (LLMs). Using a dataset of
1156 prompts across six languages, we evaluated three leading LLMs (GPT-4o,
Claude-3.5 Sonnet, and Mistral-large) on their ability to maintain appropriate
emotional boundaries through pattern-matched response analysis. Our framework
quantifies responses across seven key patterns: direct refusal, apology,
explanation, deflection, acknowledgment, boundary setting, and emotional
awareness. Results demonstrate significant variation in boundary-handling
approaches, with Claude-3.5 achieving the highest overall score (8.69/10) and
producing longer, more nuanced responses (86.51 words on average). We
identified a substantial performance gap between English (average score 25.62)
and non-English interactions (< 0.22), with English responses showing markedly
higher refusal rates (43.20% vs. < 1% for non-English). Pattern analysis
revealed model-specific strategies, such as Mistral's preference for deflection
(4.2%) and consistently low empathy scores across all models (< 0.06).
Limitations include potential oversimplification through pattern matching, lack
of contextual understanding in response analysis, and binary classification of
complex emotional responses. Future work should explore more nuanced scoring
methods, expand language coverage, and investigate cultural variations in
emotional boundary expectations. Our benchmark and methodology provide a
foundation for systematic evaluation of LLM emotional intelligence and
boundary-setting capabilities.Summary
AI-Generated Summary