Más allá del "No": Cuantificando el Exceso de Rechazo en la IA y los Límites del Apego Emocional
Beyond No: Quantifying AI Over-Refusal and Emotional Attachment Boundaries
February 20, 2025
Autores: David Noever, Grant Rosario
cs.AI
Resumen
Presentamos un marco de referencia de código abierto y una metodología de evaluación para analizar el manejo de límites emocionales en Modelos de Lenguaje a Gran Escala (LLMs). Utilizando un conjunto de datos de 1156 indicaciones en seis idiomas, evaluamos tres LLMs líderes (GPT-4o, Claude-3.5 Sonnet y Mistral-large) en su capacidad para mantener límites emocionales apropiados mediante un análisis de respuestas basado en patrones. Nuestro marco cuantifica las respuestas en siete patrones clave: rechazo directo, disculpa, explicación, desvío, reconocimiento, establecimiento de límites y conciencia emocional. Los resultados muestran variaciones significativas en los enfoques de manejo de límites, con Claude-3.5 obteniendo la puntuación más alta (8.69/10) y produciendo respuestas más extensas y matizadas (86.51 palabras en promedio). Identificamos una brecha considerable en el rendimiento entre las interacciones en inglés (puntuación promedio de 25.62) y en otros idiomas (< 0.22), con tasas de rechazo notablemente más altas en inglés (43.20% frente a < 1% en otros idiomas). El análisis de patrones reveló estrategias específicas de cada modelo, como la preferencia de Mistral por el desvío (4.2%) y puntuaciones de empatía consistentemente bajas en todos los modelos (< 0.06). Las limitaciones incluyen la posible simplificación excesiva del análisis basado en patrones, la falta de comprensión contextual en la evaluación de respuestas y la clasificación binaria de respuestas emocionales complejas. Trabajos futuros deberían explorar métodos de puntuación más matizados, ampliar la cobertura de idiomas e investigar variaciones culturales en las expectativas de límites emocionales. Nuestro marco de referencia y metodología proporcionan una base para la evaluación sistemática de la inteligencia emocional y las capacidades de establecimiento de límites en LLMs.
English
We present an open-source benchmark and evaluation framework for assessing
emotional boundary handling in Large Language Models (LLMs). Using a dataset of
1156 prompts across six languages, we evaluated three leading LLMs (GPT-4o,
Claude-3.5 Sonnet, and Mistral-large) on their ability to maintain appropriate
emotional boundaries through pattern-matched response analysis. Our framework
quantifies responses across seven key patterns: direct refusal, apology,
explanation, deflection, acknowledgment, boundary setting, and emotional
awareness. Results demonstrate significant variation in boundary-handling
approaches, with Claude-3.5 achieving the highest overall score (8.69/10) and
producing longer, more nuanced responses (86.51 words on average). We
identified a substantial performance gap between English (average score 25.62)
and non-English interactions (< 0.22), with English responses showing markedly
higher refusal rates (43.20% vs. < 1% for non-English). Pattern analysis
revealed model-specific strategies, such as Mistral's preference for deflection
(4.2%) and consistently low empathy scores across all models (< 0.06).
Limitations include potential oversimplification through pattern matching, lack
of contextual understanding in response analysis, and binary classification of
complex emotional responses. Future work should explore more nuanced scoring
methods, expand language coverage, and investigate cultural variations in
emotional boundary expectations. Our benchmark and methodology provide a
foundation for systematic evaluation of LLM emotional intelligence and
boundary-setting capabilities.Summary
AI-Generated Summary